VS Code Data Wrangler 快速入門指南

Data Wrangler 是一款以程式碼為中心的資料檢視與清理工具,已整合至 VS Code 與 VS Code Jupyter Notebook 中。它提供豐富的使用者介面來檢視與分析您的資料,顯示具洞察力的欄位統計數據與視覺化圖表,並在您清理與轉換資料時自動產生 Pandas 程式碼。

以下是一個從筆記本開啟 Data Wrangler 以分析並使用內建操作清理資料的範例。隨後,系統會將自動產生的程式碼匯出回筆記本中。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

本頁面的目標是協助您快速上手 Data Wrangler。

設定您的環境

  1. 若您尚未安裝,請先安裝 Python注意:Data Wrangler 僅支援 Python 3.8 或更高版本)。
  2. 安裝 Data Wrangler 擴充功能

當您首次啟動 Data Wrangler 時,它會詢問您想要連接到哪個 Python 核心 (Kernel)。它也會檢查您的機器與環境,確認是否安裝了必要的 Python 套件,例如 Pandas。

開啟 Data Wrangler

在 Data Wrangler 中進行的任何操作皆處於沙盒 (sandboxed) 環境,這代表您可以安全地探索與轉換資料。除非您明確匯出變更,否則原始資料集不會被修改。

從 Jupyter Notebook 啟動 Data Wrangler

若您的筆記本中有 Pandas 資料框架 (Data Frame),在執行 df.head()df.tail()display(df)print(df)df 後,您會在儲存格下方看到一個 Open 'df' in Data Wrangler 按鈕(其中 df 為您的資料框架變數名稱)。

a screenshot showing the entry point into Data Wrangler from a notebook

直接從檔案啟動 Data Wrangler

您也可以直接從本機檔案(例如 .csv)啟動 Data Wrangler。若要這麼做,請在 VS Code 中開啟包含該檔案的資料夾。在檔案總管 (File Explorer) 檢視中,右鍵點擊該檔案並選擇 Open in Data Wrangler

a screenshot showing the entry point into Data Wrangler from a file

使用者介面導覽

Data Wrangler 在處理資料時有兩種模式。各模式的詳細資訊將在後續章節說明。

  1. 檢視模式 (Viewing mode):檢視模式會優化介面,讓您快速檢視、篩選與排序資料。此模式非常適合對資料集進行初步探索。
  2. 編輯模式 (Editing mode):編輯模式會優化介面,讓您對資料集套用轉換、清理或修改。當您在介面中套用這些轉換時,Data Wrangler 會自動產生相關的 Pandas 程式碼,這些程式碼可匯出回您的筆記本以便重複使用。

注意:預設情況下,Data Wrangler 會以「檢視模式」開啟。您可以在設定編輯器中變更此行為

檢視模式介面

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

  1. 資料摘要 (Data Summary) 面板會顯示整體資料集或所選特定欄位的詳細統計摘要。

  2. 您可以從欄位標題選單中,對該欄位套用任何 資料篩選/排序 (Data Filters/Sorts)

  3. 在 Data Wrangler 的 檢視編輯 模式之間切換,以存取內建的資料操作功能。

  4. 快速洞察 (Quick Insights) 標題區塊可讓您快速查看每個欄位的重要資訊。根據欄位的資料類型,快速洞察會顯示資料分佈、資料點頻率,以及缺失值與相異值的數量。

  5. 資料格 (Data Grid) 提供一個可捲動的面板,讓您檢視完整的資料集。


編輯模式介面

切換至編輯模式會啟用 Data Wrangler 中的額外功能與使用者介面元素。在以下螢幕截圖中,我們使用 Data Wrangler 將最後一欄中的缺失值替換為該欄的中位數。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

  1. 操作 (Operations) 面板是您搜尋所有 Data Wrangler 內建資料操作的地方。這些操作已按類別整理。

  2. 清理步驟 (Cleaning Steps) 面板會顯示先前套用的所有操作列表。它允許使用者還原特定操作或編輯最近一次的操作。選取步驟後,資料格中會反白顯示對應的變更,並顯示與該操作相關的已生成程式碼。

  3. 匯出選單 (Export Menu) 讓您可以將程式碼匯出回 Jupyter Notebook,或將資料匯出為新檔案。

  4. 當您選取某個操作並預覽其對資料的影響時,資料格會疊加顯示您所做變更的 資料差異 (data diff) 檢視。

  5. 程式碼預覽 (Code Preview) 區段會顯示選取操作時 Data Wrangler 所產生的 Python 與 Pandas 程式碼。若未選取操作,此區塊將保持空白。您可以編輯已產生的程式碼,這會導致資料格即時反映出變更效果。

範例:替換資料集中的缺失值

針對給定的資料集,常見的資料清理任務之一是處理資料中的缺失值。下方的範例展示了如何使用 Data Wrangler 將欄位中的缺失值替換為該欄的中位數。當轉換透過介面完成時,Data Wrangler 也會自動產生替換缺失值所需的 Python 與 Pandas 程式碼。

an example of using Data Wrangler to replace missing values in your dataset

  1. 操作面板 (Operations Panel) 中,搜尋 Fill Missing Values(填補缺失值) 操作。
  2. 在參數中指定您想要用什麼值來替換缺失值。在此範例中,我們將使用該欄的中位數來替換缺失值。
  3. 確認資料格中的「資料差異」檢視顯示了正確的變更。
  4. 確認 Data Wrangler 產生的程式碼符合您的預期。
  5. 套用操作,它將會被加入到您的清理步驟歷史紀錄中。

後續步驟

本頁面介紹了如何快速上手 Data Wrangler。如需 Data Wrangler 的完整說明文件與教學(包含目前支援的所有內建操作),請參考以下頁面。

使用 Data Wrangler

© . This site is unofficial and not affiliated with Microsoft.