在 VS Code 中開始使用 Data Wrangler
Data Wrangler 是一個以程式碼為中心的資料檢視和清理工具,它整合在 VS Code 和 VS Code Jupyter Notebook 中。它提供了一個豐富的使用者介面,用於檢視和分析您的資料,顯示有洞察力的列統計資訊和視覺化,並在您清理和轉換資料時自動生成 Pandas 程式碼。
以下是一個從 Notebook 中開啟 Data Wrangler 以使用內建操作分析和清理資料的示例。然後將自動生成的程式碼匯出回 Notebook。
本文件涵蓋如何:
- 安裝和設定 Data Wrangler
- 從 Notebook 啟動 Data Wrangler
- 從資料檔案啟動 Data Wrangler
- 使用 Data Wrangler 探索您的資料
- 使用 Data Wrangler 對您的資料執行操作和清理
- 編輯資料整理程式碼並將其匯出到 Notebook
- 故障排除和提供反饋
設定您的環境
- 如果您尚未安裝 Python,請進行安裝。重要提示: Data Wrangler 僅支援 Python 3.8 或更高版本。
- 安裝 Visual Studio Code。
- 安裝 Data Wrangler 擴充套件
當您首次啟動 Data Wrangler 時,它會詢問您要連線哪個 Python 核心。它還會檢查您的機器和環境,以檢視是否安裝了所需的 Python 包,例如 Pandas。
以下是 Python 和 Python 包的所需版本列表,以及它們是否由 Data Wrangler 自動安裝
名稱 | 最低要求版本 | 自動安裝 |
---|---|---|
Python | 3.8 | 否 |
pandas | 0.25.2 | 是 |
如果在您的環境中找不到這些依賴項,Data Wrangler 將嘗試使用 pip
為您安裝它們。如果 Data Wrangler 無法安裝依賴項,最簡單的解決方法是手動執行 pip install
,然後再次啟動 Data Wrangler。這些依賴項是 Data Wrangler 所必需的,以便它可以生成 Python 和 Pandas 程式碼。
開啟 Data Wrangler
在 Data Wrangler 中,您始終處於一個沙盒環境中,這意味著您可以安全地探索和轉換資料。在您明確匯出更改之前,原始資料集不會被修改。
從 Jupyter Notebook 啟動 Data Wrangler
有三種方法可以從 Jupyter Notebook 啟動 Data Wrangler
- 在Jupyter > 變數面板中,在任何支援的資料物件旁邊,您都可以看到一個按鈕來啟動 Data Wrangler。
- 如果您的 Notebook 中有一個 Pandas 資料框,您現在可以在執行輸出資料框的程式碼後,在該單元格底部看到一個在 Data Wrangler 中開啟 'df' 按鈕(其中 'df' 是您的資料框的變數名)。這包括 1)
df.head()
, 2)df.tail()
, 3)display(df)
, 4)print(df)
, 5)df
。 - 在 Notebook 工具欄中,選擇檢視資料會顯示 Notebook 中所有支援的資料物件的列表。然後您可以選擇列表中要由 Data Wrangler 開啟的變數。
直接從檔案啟動 Data Wrangler
您還可以直接從本地檔案(例如 .csv
)啟動 Data Wrangler。為此,請在 VS Code 中開啟包含要開啟的檔案的任何資料夾。在檔案資源管理器檢視中,右鍵單擊該檔案並單擊在 Data Wrangler 中開啟。
Data Wrangler 目前支援以下檔案型別
.csv
/.tsv
.xls
/.xlsx
.parquet
根據檔案型別,您可以指定檔案的分隔符和/或工作表。
您還可以將這些檔案型別設定為預設使用 Data Wrangler 開啟。
UI 導覽
Data Wrangler 在處理資料時有兩種模式。每種模式的詳細資訊將在下面的後續部分中解釋。
- 檢視模式:檢視模式優化了介面,以便您快速檢視、過濾和排序資料。此模式非常適合對資料集進行初步探索。
- 編輯模式:編輯模式優化了介面,以便您對資料集應用轉換、清理或修改。當您在介面中應用這些轉換時,Data Wrangler 會自動生成相關的 Pandas 程式碼,並且可以將其匯出回您的 Notebook 以供重用。
注意:預設情況下,Data Wrangler 以檢視模式開啟。您可以在設定編輯器中更改此行為 。
檢視模式介面
-
如果選擇了資料摘要面板,則會顯示您的整個資料集或特定列的詳細摘要統計資訊。
-
您可以從列的標題選單中對列應用任何資料篩選器/排序。
-
在 Data Wrangler 的檢視或編輯模式之間切換以訪問內建資料操作。
-
快速洞察標題是您可以快速檢視每列有價值資訊的地方。根據列的資料型別,快速洞察顯示資料的分佈或資料點的頻率,以及缺失值和唯一值。
-
資料網格為您提供了一個可滾動的窗格,您可以在其中檢視整個資料集。
編輯模式介面
切換到編輯模式會在 Data Wrangler 中啟用附加功能和使用者介面元素。在以下螢幕截圖中,我們使用 Data Wrangler 將最後一列中的缺失值替換為該列的中位數。
-
操作面板是您可以搜尋 Data Wrangler 所有內建資料操作的地方。操作按類別組織。
-
清理步驟面板顯示了所有已應用操作的列表。它使使用者能夠撤消特定操作或編輯最近的操作。選擇一個步驟將突出顯示資料差異檢視中的更改,並顯示與該操作關聯的生成程式碼。
-
匯出選單允許您將程式碼匯出回 Jupyter Notebook 或將資料匯出到新檔案。
-
當您選擇了一個操作並預覽其對資料的影響時,網格會疊加一個您對資料所做更改的資料差異檢視。
-
程式碼預覽部分顯示了 Data Wrangler 在選擇操作時生成的 Python 和 Pandas 程式碼。未選擇操作時,它保持為空。您可以編輯生成的程式碼,這會導致資料網格突出顯示對資料的影響。
Data Wrangler 操作
可以從操作面板中選擇內建的 Data Wrangler 操作。
下表列出了 Data Wrangler 初始版本中目前支援的 Data Wrangler 操作。我們計劃在不久的將來新增更多操作。
操作 | 描述 |
---|---|
排序 | 按升序或降序排序列 |
篩選 | 根據一個或多個條件篩選行 |
計算文字長度 | 建立新列,其值等於文字列中每個字串值的長度 |
獨熱編碼 | 將分類資料拆分為每個類別的新列 |
多標籤二值化 | 使用分隔符將分類資料拆分為每個類別的新列 |
從公式建立列 | 使用自定義 Python 公式建立列 |
更改列型別 | 更改列的資料型別 |
刪除列 | 刪除一個或多個列 |
選擇列 | 選擇要保留的一個或多個列並刪除其餘列 |
重新命名列 | 重新命名一個或多個列 |
克隆列 | 建立一列或多列的副本 |
刪除缺失值 | 刪除包含缺失值的行 |
刪除重複行 | 刪除一個或多個列中包含重複值的所有行 |
填充缺失值 | 用新值替換包含缺失值的單元格 |
查詢和替換 | 替換與模式匹配的單元格 |
按列分組和聚合 | 按列分組並聚合結果 |
去除空格 | 去除文字開頭和結尾的空格 |
分割文字 | 根據使用者定義的分隔符將一列分割成多列 |
首字母大寫 | 將首字母轉換為大寫,其餘轉換為小寫 |
將文字轉換為小寫 | 將文字轉換為小寫 |
將文字轉換為大寫 | 將文字轉換為大寫 |
按示例進行字串轉換 | 當從您提供的示例中檢測到模式時,自動執行字串轉換 |
按示例進行日期時間格式化 | 當從您提供的示例中檢測到模式時,自動執行日期時間格式化 |
按示例新建列 | 當從您提供的示例中檢測到模式時,自動建立一列。 |
縮放最小值/最大值 | 在最小值和最大值之間縮放數字列 |
四捨五入 | 將數字四捨五入到指定的小數位數 |
向下取整 (floor) | 將數字向下取整到最接近的整數 |
向上取整 (ceiling) | 將數字向上取整到最接近的整數 |
自定義操作 | 根據示例和現有列的派生自動建立新列 |
如果缺少您希望在 Data Wrangler 中支援的操作,請在我們的 Data Wrangler GitHub 儲存庫中提交功能請求。
修改上一步驟
可以透過清理步驟面板修改生成的程式碼的每個步驟。首先,選擇要修改的步驟。然後,當您對操作進行更改時(透過程式碼或操作面板),您的更改對資料的影響會在網格檢視中突出顯示。
編輯和匯出程式碼
完成 Data Wrangler 中的資料清理步驟後,有三種方法可以從 Data Wrangler 中匯出清理後的資料集。
- 將程式碼匯出回 Notebook 並退出:這會在您的 Jupyter Notebook 中建立一個新單元格,其中包含您生成的所有資料清理程式碼,並將其打包成一個 Python 函式。
- 將資料匯出到檔案:這會將清理後的資料集儲存為新的 CSV 或 Parquet 檔案到您的機器上。
- 將程式碼複製到剪貼簿:這會複製 Data Wrangler 為資料清理操作生成的所有程式碼。
搜尋列
要在資料集中查詢特定列,請從 Data Wrangler 工具欄中選擇轉到列並搜尋相應的列。
故障排除
常見的核心連線問題
對於常見的連線問題,請參閱上面“連線到 Python 核心”部分中的其他連線方法。要除錯與本地 Python 直譯器選項相關的問題,一種可能的解決方法是安裝不同版本的 Jupyter 和 Python 擴充套件。例如,如果安裝了穩定版本的擴充套件,您可能需要安裝預釋出版本(反之亦然)。
要清除已快取的核心,您可以從命令面板 ⇧⌘P(Windows、Linux Ctrl+Shift+P)執行 Data Wrangler: 清除快取的執行時
命令。
開啟資料檔案出現 UnicodeDecodeError
如果您在直接從 Data Wrangler 開啟資料檔案時遇到 UnicodeDecodeError
,這可能是由兩個可能的問題引起的
- 您嘗試開啟的檔案編碼不是
UTF-8
- 檔案已損壞。
要解決此錯誤,您需要從 Jupyter Notebook 而不是直接從資料檔案開啟 Data Wrangler。使用 Jupyter Notebook 讀取檔案,例如使用 read_csv 方法。在 read
方法中,使用 encoding
和/或 encoding_errors
引數定義要使用的編碼或如何處理編碼錯誤。如果您不知道哪種編碼可能適用於此檔案,您可以嘗試使用 chardet 等庫來嘗試推斷可行的編碼。
問題和反饋
如果您遇到問題、有功能請求或任何其他反饋,請在我們的 GitHub 儲存庫中提交問題:https://github.com/microsoft/vscode-data-wrangler/issues/new/choose
資料和遙測
Microsoft Data Wrangler for Visual Studio Code 擴充套件收集使用資料並將其傳送給 Microsoft,以幫助改進我們的產品和服務。閱讀我們的 隱私宣告 以瞭解更多資訊。此擴充套件尊重 telemetry.telemetryLevel
設定,您可以在 https://vscode.com.tw/docs/configure/telemetry 瞭解更多資訊。