參加你附近的 ,瞭解 VS Code 中的 AI 輔助開發。

VS Code 中 Data Wrangler 快速入門指南

Data Wrangler 是一個以程式碼為中心的資料檢視和清理工具,它整合在 VS Code 和 VS Code Jupyter Notebook 中。它提供了一個豐富的使用者介面來檢視和分析你的資料,顯示富有洞察力的列統計資訊和視覺化,並在你清理和轉換資料時自動生成 Pandas 程式碼。

以下是一個從 Notebook 中開啟 Data Wrangler 的示例,用於使用內建操作分析和清理資料。然後將自動生成的程式碼匯出回 Notebook。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

本頁的目標是幫助你快速啟動並執行 Data Wrangler。

設定你的環境

  1. 如果你還沒有安裝,請安裝 Python注意:Data Wrangler 僅支援 Python 3.8 或更高版本)。
  2. 安裝 Data Wrangler 擴充套件

首次啟動 Data Wrangler 時,它會詢問你想要連線到哪個 Python 核心。它還會檢查你的機器和環境,檢視是否安裝了所需的 Python 包,例如 Pandas。

開啟 Data Wrangler

無論何時你在 Data Wrangler 中,你都處於一個沙盒環境中,這意味著你可以安全地探索和轉換資料。原始資料集不會被修改,直到你明確匯出你的更改。

從 Jupyter Notebook 啟動 Data Wrangler

如果你的 Notebook 中有一個 Pandas 資料框,你現在會在執行任何 df.head()df.tail()display(df)print(df)df 之後,在單元格底部看到一個在 Data Wrangler 中開啟 'df' 按鈕(其中 df 是你的資料框的變數名)。

a screenshot showing the entry point into Data Wrangler from a notebook

直接從檔案啟動 Data Wrangler

你也可以直接從本地檔案(例如 .csv 檔案)啟動 Data Wrangler。為此,請在 VS Code 中開啟包含要開啟檔案的任何資料夾。在檔案資源管理器檢視中,右鍵單擊該檔案並單擊在 Data Wrangler 中開啟

a screenshot showing the entry point into Data Wrangler from a file

UI 導覽

Data Wrangler 在處理資料時有兩種模式。每種模式的詳細資訊將在下面的後續部分中解釋。

  1. 檢視模式:檢視模式優化了介面,以便你快速檢視、篩選和排序資料。此模式非常適合對資料集進行初步探索。
  2. 編輯模式:編輯模式優化了介面,以便你對資料集應用轉換、清理或修改。當你在介面中應用這些轉換時,Data Wrangler 會自動生成相關的 Pandas 程式碼,並且可以將其匯出回你的 Notebook 以供重複使用。

注意:預設情況下,Data Wrangler 以檢視模式開啟。你可以在“設定編輯器”中更改此行為

檢視模式介面

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

  1. 資料摘要面板顯示了整體資料集或特定列(如果選中)的詳細摘要統計資訊。

  2. 你可以從列的標題選單中對列應用任何資料篩選/排序

  3. 在 Data Wrangler 的檢視編輯模式之間切換以訪問內建資料操作。

  4. 快速洞察標題是你快速檢視每列有價值資訊的地方。根據列的資料型別,快速洞察顯示資料的分佈或資料點的頻率,以及缺失值和不同值。

  5. 資料網格為你提供了一個可滾動窗格,你可以在其中檢視整個資料集。


編輯模式介面

切換到編輯模式會啟用 Data Wrangler 中的附加功能和使用者介面元素。在以下螢幕截圖中,我們使用 Data Wrangler 將最後一列中的缺失值替換為該列的中位數。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

  1. 操作面板是你搜索 Data Wrangler 所有內建資料操作的地方。這些操作按類別組織。

  2. 清理步驟面板顯示了已應用的所有操作的列表。它使使用者能夠撤消特定操作或編輯最近的操作。選擇一個步驟將突出顯示資料網格中的更改,並顯示與該操作關聯的生成程式碼。

  3. 匯出選單允許你將程式碼匯出回 Jupyter Notebook 或將資料匯出到新檔案。

  4. 當你選擇了一個操作並預覽其對資料的影響時,網格將覆蓋一個資料差異檢視,顯示你對資料所做的更改。

  5. 程式碼預覽部分顯示了 Data Wrangler 在選擇操作時生成的 Python 和 Pandas 程式碼。未選擇操作時,此部分為空。你可以編輯生成的程式碼,這會導致資料網格突出顯示對資料的影響。

示例:替換資料集中的缺失值

給定一個數據集,常見的資料清理任務之一是處理資料中存在的任何缺失值。下面的示例展示瞭如何使用 Data Wrangler 將列中的缺失值替換為該列的中位數。雖然轉換是透過介面完成的,但 Data Wrangler 還會自動生成替換缺失值所需的 Python 和 Pandas 程式碼。

an example of using Data Wrangler to replace missing values in your dataset

  1. 操作面板中,搜尋填充缺失值操作。
  2. 在引數中指定你希望用什麼替換缺失值。在這種情況下,我們將用該列的中位數替換缺失值。
  3. 驗證資料網格顯示的資料差異中的更改是否正確。
  4. 驗證 Data Wrangler 生成的程式碼是否符合你的預期。
  5. 應用該操作,它將被新增到你的清理步驟歷史記錄中。

後續步驟

本頁介紹瞭如何快速開始使用 Data Wrangler。有關 Data Wrangler 的完整文件和教程,包括 Data Wrangler 當前支援的所有內建操作,請參閱以下頁面。

使用 Data Wrangler