VS Code 中 Data Wrangler 快速入門指南

Data Wrangler 是一個以程式碼為中心的 VS Code 和 VS Code Jupyter Notebook 整合的資料檢視和清理工具。它提供了一個豐富的使用者介面來檢視和分析您的資料，展示有見地的列統計資訊和視覺化，並在您清理和轉換資料時自動生成 Pandas 程式碼。

以下是從 Notebook 中開啟 Data Wrangler 來分析和清理資料的示例，然後將自動生成的程式碼匯出回 Notebook。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

本頁的目的是幫助您快速上手並開始使用 Data Wrangler。

設定您的環境

如果您還沒有安裝 Python，請先安裝 (注意： Data Wrangler 僅支援 Python 3.8 或更高版本)。
安裝 Data Wrangler 擴充套件

當您第一次啟動 Data Wrangler 時，它會詢問您要連線到哪個 Python 核心。它還會檢查您的機器和環境，以檢視是否安裝了所需的 Python 包，例如 Pandas。

開啟 Data Wrangler

無論何時您在 Data Wrangler 中，都處於一個沙盒環境中，這意味著您可以安全地探索和轉換資料。在您明確匯出更改之前，原始資料集不會被修改。

從 Jupyter Notebook 啟動 Data Wrangler

如果您在 Notebook 中有一個 Pandas DataFrame，在執行 df.head()、df.tail()、display(df)、print(df) 和 df 中的任何一個後，您將在單元格底部看到一個開啟 'df' 到 Data Wrangler 按鈕 (其中 df 是您的 DataFrame 的變數名)。

a screenshot showing the entry point into Data Wrangler from a notebook

直接從檔案啟動 Data Wrangler

您也可以直接從本地檔案 (如 .csv) 啟動 Data Wrangler。要做到這一點，在 VS Code 中開啟包含您想要開啟的檔案所在的任何資料夾。在檔案資源管理器檢視中，右鍵單擊該檔案，然後單擊在 Data Wrangler 中開啟。

a screenshot showing the entry point into Data Wrangler from a file

UI 導覽

Data Wrangler 在處理您的資料時有兩種模式。每種模式的詳細資訊將在下面的後續部分中進行解釋。

檢視模式： 檢視模式優化了介面，以便您快速檢視、過濾和排序資料。此模式非常適合對資料集進行初步探索。
編輯模式： 編輯模式優化了介面，以便您對資料集應用轉換、清理或修改。當您在介面中應用這些轉換時，Data Wrangler 會自動生成相關的 Pandas 程式碼，這些程式碼可以匯出回您的 Notebook 以便重複使用。

注意：預設情況下，Data Wrangler 以檢視模式開啟。您可以在設定編輯器中更改此行為。

檢視模式介面

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

資料摘要面板顯示您整個資料集或特定列 (如果已選擇) 的詳細摘要統計資訊。
您可以從列的表頭選單中對列應用任何資料過濾器/排序。
在 Data Wrangler 的檢視或編輯模式之間切換，以訪問內建的資料操作。
快速洞察標題是您可以在其中快速檢視每列有價值資訊的地方。根據列的資料型別，快速洞察會顯示資料的分佈或資料點的頻率，以及缺失值和唯一值。
資料網格為您提供了一個可滾動的窗格，您可以在其中檢視整個資料集。

編輯模式介面

切換到編輯模式可以在 Data Wrangler 中啟用其他功能和使用者介面元素。在以下截圖中，我們使用 Data Wrangler 將最後一列中的缺失值替換為該列的中位數。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

操作面板是您可以搜尋 Data Wrangler 所有內建資料操作的地方。操作按類別組織。
清理步驟面板顯示了先前應用的所有操作的列表。它使使用者能夠撤銷特定的操作或編輯最新的操作。選擇一個步驟將突出顯示資料網格中的更改，並顯示與該操作相關的生成程式碼。
匯出選單允許您將程式碼匯出回 Jupyter Notebook 或將資料匯出到新檔案。
當您選擇了一個操作並預覽其對資料的影響時，資料網格會疊加顯示您對資料所做更改的資料差異檢視。
程式碼預覽部分顯示當選擇一個操作時 Data Wrangler 生成的 Python 和 Pandas 程式碼。當沒有選擇操作時，它保持為空。您可以編輯生成的程式碼，這將導致資料網格突出顯示對資料的影響。

示例：替換資料集中的缺失值

給定一個數據集，一個常見的資料清理任務是處理資料中存在的任何缺失值。下面的示例展示瞭如何使用 Data Wrangler 將列中的缺失值替換為該列的中位數。雖然轉換是透過介面完成的，但 Data Wrangler 也會自動生成替換缺失值所需的 Python 和 Pandas 程式碼。

an example of using Data Wrangler to replace missing values in your dataset

在操作面板中，搜尋填充缺失值操作。
在引數中指定您想要用什麼來替換缺失值。在這種情況下，我們將用該列的中位數來替換缺失值。
驗證資料網格是否向您顯示了資料差異中的正確更改。
驗證 Data Wrangler 生成的程式碼是否符合您的預期。
應用該操作，它將被新增到您的清理步驟歷史記錄中。

後續步驟

本頁介紹瞭如何快速開始使用 Data Wrangler。有關 Data Wrangler 的完整文件和教程，包括 Data Wrangler 目前支援的所有內建操作，請參閱以下頁面。

使用 Data Wrangler

04/04/2024