VS Code Data Wrangler 快速入門指南
Data Wrangler 是一款以程式碼為中心的資料檢視與清理工具,已整合至 VS Code 與 VS Code Jupyter Notebook 中。它提供豐富的使用者介面來檢視與分析您的資料,顯示具洞察力的欄位統計數據與視覺化圖表,並在您清理與轉換資料時自動產生 Pandas 程式碼。
以下是一個從筆記本開啟 Data Wrangler 以分析並使用內建操作清理資料的範例。隨後,系統會將自動產生的程式碼匯出回筆記本中。

本頁面的目標是協助您快速上手 Data Wrangler。
設定您的環境
- 若您尚未安裝,請先安裝 Python(注意:Data Wrangler 僅支援 Python 3.8 或更高版本)。
- 安裝 Data Wrangler 擴充功能
當您首次啟動 Data Wrangler 時,它會詢問您想要連接到哪個 Python 核心 (Kernel)。它也會檢查您的機器與環境,確認是否安裝了必要的 Python 套件,例如 Pandas。
開啟 Data Wrangler
在 Data Wrangler 中進行的任何操作皆處於沙盒 (sandboxed) 環境,這代表您可以安全地探索與轉換資料。除非您明確匯出變更,否則原始資料集不會被修改。
從 Jupyter Notebook 啟動 Data Wrangler
若您的筆記本中有 Pandas 資料框架 (Data Frame),在執行 df.head()、df.tail()、display(df)、print(df) 或 df 後,您會在儲存格下方看到一個 Open 'df' in Data Wrangler 按鈕(其中 df 為您的資料框架變數名稱)。

直接從檔案啟動 Data Wrangler
您也可以直接從本機檔案(例如 .csv)啟動 Data Wrangler。若要這麼做,請在 VS Code 中開啟包含該檔案的資料夾。在檔案總管 (File Explorer) 檢視中,右鍵點擊該檔案並選擇 Open in Data Wrangler。

使用者介面導覽
Data Wrangler 在處理資料時有兩種模式。各模式的詳細資訊將在後續章節說明。
- 檢視模式 (Viewing mode):檢視模式會優化介面,讓您快速檢視、篩選與排序資料。此模式非常適合對資料集進行初步探索。
- 編輯模式 (Editing mode):編輯模式會優化介面,讓您對資料集套用轉換、清理或修改。當您在介面中套用這些轉換時,Data Wrangler 會自動產生相關的 Pandas 程式碼,這些程式碼可匯出回您的筆記本以便重複使用。
注意:預設情況下,Data Wrangler 會以「檢視模式」開啟。您可以在設定編輯器中變更此行為 。
檢視模式介面

-
資料摘要 (Data Summary) 面板會顯示整體資料集或所選特定欄位的詳細統計摘要。
-
您可以從欄位標題選單中,對該欄位套用任何 資料篩選/排序 (Data Filters/Sorts)。
-
在 Data Wrangler 的 檢視 或 編輯 模式之間切換,以存取內建的資料操作功能。
-
快速洞察 (Quick Insights) 標題區塊可讓您快速查看每個欄位的重要資訊。根據欄位的資料類型,快速洞察會顯示資料分佈、資料點頻率,以及缺失值與相異值的數量。
-
資料格 (Data Grid) 提供一個可捲動的面板,讓您檢視完整的資料集。
編輯模式介面
切換至編輯模式會啟用 Data Wrangler 中的額外功能與使用者介面元素。在以下螢幕截圖中,我們使用 Data Wrangler 將最後一欄中的缺失值替換為該欄的中位數。

-
操作 (Operations) 面板是您搜尋所有 Data Wrangler 內建資料操作的地方。這些操作已按類別整理。
-
清理步驟 (Cleaning Steps) 面板會顯示先前套用的所有操作列表。它允許使用者還原特定操作或編輯最近一次的操作。選取步驟後,資料格中會反白顯示對應的變更,並顯示與該操作相關的已生成程式碼。
-
匯出選單 (Export Menu) 讓您可以將程式碼匯出回 Jupyter Notebook,或將資料匯出為新檔案。
-
當您選取某個操作並預覽其對資料的影響時,資料格會疊加顯示您所做變更的 資料差異 (data diff) 檢視。
-
程式碼預覽 (Code Preview) 區段會顯示選取操作時 Data Wrangler 所產生的 Python 與 Pandas 程式碼。若未選取操作,此區塊將保持空白。您可以編輯已產生的程式碼,這會導致資料格即時反映出變更效果。
範例:替換資料集中的缺失值
針對給定的資料集,常見的資料清理任務之一是處理資料中的缺失值。下方的範例展示了如何使用 Data Wrangler 將欄位中的缺失值替換為該欄的中位數。當轉換透過介面完成時,Data Wrangler 也會自動產生替換缺失值所需的 Python 與 Pandas 程式碼。

- 在 操作面板 (Operations Panel) 中,搜尋 Fill Missing Values(填補缺失值) 操作。
- 在參數中指定您想要用什麼值來替換缺失值。在此範例中,我們將使用該欄的中位數來替換缺失值。
- 確認資料格中的「資料差異」檢視顯示了正確的變更。
- 確認 Data Wrangler 產生的程式碼符合您的預期。
- 套用操作,它將會被加入到您的清理步驟歷史紀錄中。
後續步驟
本頁面介紹了如何快速上手 Data Wrangler。如需 Data Wrangler 的完整說明文件與教學(包含目前支援的所有內建操作),請參考以下頁面。