參加你附近的 ,瞭解 VS Code 中的 AI 輔助開發。

在 VS Code 中開始使用 Data Wrangler

Data Wrangler 是一個以程式碼為中心的資料檢視和清理工具,它整合在 VS Code 和 VS Code Jupyter Notebook 中。它提供了一個豐富的使用者介面,用於檢視和分析您的資料,顯示有洞察力的列統計資訊和視覺化,並在您清理和轉換資料時自動生成 Pandas 程式碼。

以下是一個從 Notebook 中開啟 Data Wrangler 以使用內建操作分析和清理資料的示例。然後將自動生成的程式碼匯出回 Notebook。

a gif of opening Data Wrangler from a notebook, looking through the data, switching from Viewing to Editing mode, applying data transformations, and exporting the generated Python code back into the notebook

本文件涵蓋如何:

  • 安裝和設定 Data Wrangler
  • 從 Notebook 啟動 Data Wrangler
  • 從資料檔案啟動 Data Wrangler
  • 使用 Data Wrangler 探索您的資料
  • 使用 Data Wrangler 對您的資料執行操作和清理
  • 編輯資料整理程式碼並將其匯出到 Notebook
  • 故障排除和提供反饋

設定您的環境

  1. 如果您尚未安裝 Python,請進行安裝。重要提示: Data Wrangler 僅支援 Python 3.8 或更高版本。
  2. 安裝 Visual Studio Code
  3. 安裝 Data Wrangler 擴充套件

當您首次啟動 Data Wrangler 時,它會詢問您要連線哪個 Python 核心。它還會檢查您的機器和環境,以檢視是否安裝了所需的 Python 包,例如 Pandas。

以下是 Python 和 Python 包的所需版本列表,以及它們是否由 Data Wrangler 自動安裝

名稱 最低要求版本 自動安裝
Python 3.8
pandas 0.25.2

如果在您的環境中找不到這些依賴項,Data Wrangler 將嘗試使用 pip 為您安裝它們。如果 Data Wrangler 無法安裝依賴項,最簡單的解決方法是手動執行 pip install,然後再次啟動 Data Wrangler。這些依賴項是 Data Wrangler 所必需的,以便它可以生成 Python 和 Pandas 程式碼。

開啟 Data Wrangler

在 Data Wrangler 中,您始終處於一個沙盒環境中,這意味著您可以安全地探索和轉換資料。在您明確匯出更改之前,原始資料集不會被修改。

從 Jupyter Notebook 啟動 Data Wrangler

有三種方法可以從 Jupyter Notebook 啟動 Data Wrangler

a screenshot showing the entry point into Data Wrangler from a notebook

  1. Jupyter > 變數面板中,在任何支援的資料物件旁邊,您都可以看到一個按鈕來啟動 Data Wrangler。
  2. 如果您的 Notebook 中有一個 Pandas 資料框,您現在可以在執行輸出資料框的程式碼後,在該單元格底部看到一個在 Data Wrangler 中開啟 'df' 按鈕(其中 'df' 是您的資料框的變數名)。這包括 1) df.head(), 2) df.tail(), 3) display(df), 4) print(df), 5) df
  3. 在 Notebook 工具欄中,選擇檢視資料會顯示 Notebook 中所有支援的資料物件的列表。然後您可以選擇列表中要由 Data Wrangler 開啟的變數。

直接從檔案啟動 Data Wrangler

您還可以直接從本地檔案(例如 .csv)啟動 Data Wrangler。為此,請在 VS Code 中開啟包含要開啟的檔案的任何資料夾。在檔案資源管理器檢視中,右鍵單擊該檔案並單擊在 Data Wrangler 中開啟

a screenshot showing the entry point into Data Wrangler from a file

Data Wrangler 目前支援以下檔案型別

  • .csv/.tsv
  • .xls/.xlsx
  • .parquet

根據檔案型別,您可以指定檔案的分隔符和/或工作表。

a screenshot showing the parameters you can set in Data Wrangler when opening directly from a file

您還可以將這些檔案型別設定為預設使用 Data Wrangler 開啟。

UI 導覽

Data Wrangler 在處理資料時有兩種模式。每種模式的詳細資訊將在下面的後續部分中解釋。

  1. 檢視模式:檢視模式優化了介面,以便您快速檢視、過濾和排序資料。此模式非常適合對資料集進行初步探索。
  2. 編輯模式:編輯模式優化了介面,以便您對資料集應用轉換、清理或修改。當您在介面中應用這些轉換時,Data Wrangler 會自動生成相關的 Pandas 程式碼,並且可以將其匯出回您的 Notebook 以供重用。

注意:預設情況下,Data Wrangler 以檢視模式開啟。您可以在設定編輯器中更改此行為

a screenshot of the setting in Visual Studio Code for setting the default mode of Data Wrangler

檢視模式介面

a screenshot showing the different components in the UI for Data Wrangler in Viewing mode

  1. 如果選擇了資料摘要面板,則會顯示您的整個資料集或特定列的詳細摘要統計資訊。

  2. 您可以從列的標題選單中對列應用任何資料篩選器/排序

  3. 在 Data Wrangler 的檢視編輯模式之間切換以訪問內建資料操作。

  4. 快速洞察標題是您可以快速檢視每列有價值資訊的地方。根據列的資料型別,快速洞察顯示資料的分佈或資料點的頻率,以及缺失值和唯一值。

  5. 資料網格為您提供了一個可滾動的窗格,您可以在其中檢視整個資料集。


編輯模式介面

切換到編輯模式會在 Data Wrangler 中啟用附加功能和使用者介面元素。在以下螢幕截圖中,我們使用 Data Wrangler 將最後一列中的缺失值替換為該列的中位數。

a screenshot showing the different components in the UI for Data Wrangler in Editing mode

  1. 操作面板是您可以搜尋 Data Wrangler 所有內建資料操作的地方。操作按類別組織。

  2. 清理步驟面板顯示了所有已應用操作的列表。它使使用者能夠撤消特定操作或編輯最近的操作。選擇一個步驟將突出顯示資料差異檢視中的更改,並顯示與該操作關聯的生成程式碼。

  3. 匯出選單允許您將程式碼匯出回 Jupyter Notebook 或將資料匯出到新檔案。

  4. 當您選擇了一個操作並預覽其對資料的影響時,網格會疊加一個您對資料所做更改的資料差異檢視。

  5. 程式碼預覽部分顯示了 Data Wrangler 在選擇操作時生成的 Python 和 Pandas 程式碼。未選擇操作時,它保持為空。您可以編輯生成的程式碼,這會導致資料網格突出顯示對資料的影響。

Data Wrangler 操作

可以從操作面板中選擇內建的 Data Wrangler 操作。

a screenshot of the Data Wrangler Operations panel

下表列出了 Data Wrangler 初始版本中目前支援的 Data Wrangler 操作。我們計劃在不久的將來新增更多操作。

操作 描述
排序 按升序或降序排序列
篩選 根據一個或多個條件篩選行
計算文字長度 建立新列,其值等於文字列中每個字串值的長度
獨熱編碼 將分類資料拆分為每個類別的新列
多標籤二值化 使用分隔符將分類資料拆分為每個類別的新列
從公式建立列 使用自定義 Python 公式建立列
更改列型別 更改列的資料型別
刪除列 刪除一個或多個列
選擇列 選擇要保留的一個或多個列並刪除其餘列
重新命名列 重新命名一個或多個列
克隆列 建立一列或多列的副本
刪除缺失值 刪除包含缺失值的行
刪除重複行 刪除一個或多個列中包含重複值的所有行
填充缺失值 用新值替換包含缺失值的單元格
查詢和替換 替換與模式匹配的單元格
按列分組和聚合 按列分組並聚合結果
去除空格 去除文字開頭和結尾的空格
分割文字 根據使用者定義的分隔符將一列分割成多列
首字母大寫 將首字母轉換為大寫,其餘轉換為小寫
將文字轉換為小寫 將文字轉換為小寫
將文字轉換為大寫 將文字轉換為大寫
按示例進行字串轉換 當從您提供的示例中檢測到模式時,自動執行字串轉換
按示例進行日期時間格式化 當從您提供的示例中檢測到模式時,自動執行日期時間格式化
按示例新建列 當從您提供的示例中檢測到模式時,自動建立一列。
縮放最小值/最大值 在最小值和最大值之間縮放數字列
四捨五入 將數字四捨五入到指定的小數位數
向下取整 (floor) 將數字向下取整到最接近的整數
向上取整 (ceiling) 將數字向上取整到最接近的整數
自定義操作 根據示例和現有列的派生自動建立新列

如果缺少您希望在 Data Wrangler 中支援的操作,請在我們的 Data Wrangler GitHub 儲存庫中提交功能請求。

修改上一步驟

可以透過清理步驟面板修改生成的程式碼的每個步驟。首先,選擇要修改的步驟。然後,當您對操作進行更改時(透過程式碼或操作面板),您的更改對資料的影響會在網格檢視中突出顯示。

a screenshot showing how to modify previous steps

編輯和匯出程式碼

完成 Data Wrangler 中的資料清理步驟後,有三種方法可以從 Data Wrangler 中匯出清理後的資料集。

  1. 將程式碼匯出回 Notebook 並退出:這會在您的 Jupyter Notebook 中建立一個新單元格,其中包含您生成的所有資料清理程式碼,並將其打包成一個 Python 函式。
  2. 將資料匯出到檔案:這會將清理後的資料集儲存為新的 CSV 或 Parquet 檔案到您的機器上。
  3. 將程式碼複製到剪貼簿:這會複製 Data Wrangler 為資料清理操作生成的所有程式碼。

a screenshot of the export menu in Data Wrangler

搜尋列

要在資料集中查詢特定列,請從 Data Wrangler 工具欄中選擇轉到列並搜尋相應的列。

a screenshot of the search for columns feature

故障排除

常見的核心連線問題

對於常見的連線問題,請參閱上面“連線到 Python 核心”部分中的其他連線方法。要除錯與本地 Python 直譯器選項相關的問題,一種可能的解決方法是安裝不同版本的 Jupyter 和 Python 擴充套件。例如,如果安裝了穩定版本的擴充套件,您可能需要安裝預釋出版本(反之亦然)。

要清除已快取的核心,您可以從命令面板 ⇧⌘P(Windows、Linux Ctrl+Shift+P執行 Data Wrangler: 清除快取的執行時命令。

開啟資料檔案出現 UnicodeDecodeError

如果您在直接從 Data Wrangler 開啟資料檔案時遇到 UnicodeDecodeError,這可能是由兩個可能的問題引起的

  1. 您嘗試開啟的檔案編碼不是 UTF-8
  2. 檔案已損壞。

要解決此錯誤,您需要從 Jupyter Notebook 而不是直接從資料檔案開啟 Data Wrangler。使用 Jupyter Notebook 讀取檔案,例如使用 read_csv 方法。在 read 方法中,使用 encoding 和/或 encoding_errors 引數定義要使用的編碼或如何處理編碼錯誤。如果您不知道哪種編碼可能適用於此檔案,您可以嘗試使用 chardet 等庫來嘗試推斷可行的編碼。

問題和反饋

如果您遇到問題、有功能請求或任何其他反饋,請在我們的 GitHub 儲存庫中提交問題:https://github.com/microsoft/vscode-data-wrangler/issues/new/choose

資料和遙測

Microsoft Data Wrangler for Visual Studio Code 擴充套件收集使用資料並將其傳送給 Microsoft,以幫助改進我們的產品和服務。閱讀我們的 隱私宣告 以瞭解更多資訊。此擴充套件尊重 telemetry.telemetryLevel 設定,您可以在 https://vscode.com.tw/docs/configure/telemetry 瞭解更多資訊。