VS Code 中 Data Wrangler 快速入門指南
Data Wrangler 是一個以程式碼為中心的資料檢視和清理工具,它整合在 VS Code 和 VS Code Jupyter Notebook 中。它提供了一個豐富的使用者介面來檢視和分析你的資料,顯示富有洞察力的列統計資訊和視覺化,並在你清理和轉換資料時自動生成 Pandas 程式碼。
以下是一個從 Notebook 中開啟 Data Wrangler 的示例,用於使用內建操作分析和清理資料。然後將自動生成的程式碼匯出回 Notebook。
本頁的目標是幫助你快速啟動並執行 Data Wrangler。
設定你的環境
- 如果你還沒有安裝,請安裝 Python(注意:Data Wrangler 僅支援 Python 3.8 或更高版本)。
- 安裝 Data Wrangler 擴充套件
首次啟動 Data Wrangler 時,它會詢問你想要連線到哪個 Python 核心。它還會檢查你的機器和環境,檢視是否安裝了所需的 Python 包,例如 Pandas。
開啟 Data Wrangler
無論何時你在 Data Wrangler 中,你都處於一個沙盒環境中,這意味著你可以安全地探索和轉換資料。原始資料集不會被修改,直到你明確匯出你的更改。
從 Jupyter Notebook 啟動 Data Wrangler
如果你的 Notebook 中有一個 Pandas 資料框,你現在會在執行任何 df.head()
、df.tail()
、display(df)
、print(df)
和 df
之後,在單元格底部看到一個在 Data Wrangler 中開啟 'df' 按鈕(其中 df
是你的資料框的變數名)。
直接從檔案啟動 Data Wrangler
你也可以直接從本地檔案(例如 .csv
檔案)啟動 Data Wrangler。為此,請在 VS Code 中開啟包含要開啟檔案的任何資料夾。在檔案資源管理器檢視中,右鍵單擊該檔案並單擊在 Data Wrangler 中開啟。
UI 導覽
Data Wrangler 在處理資料時有兩種模式。每種模式的詳細資訊將在下面的後續部分中解釋。
- 檢視模式:檢視模式優化了介面,以便你快速檢視、篩選和排序資料。此模式非常適合對資料集進行初步探索。
- 編輯模式:編輯模式優化了介面,以便你對資料集應用轉換、清理或修改。當你在介面中應用這些轉換時,Data Wrangler 會自動生成相關的 Pandas 程式碼,並且可以將其匯出回你的 Notebook 以供重複使用。
注意:預設情況下,Data Wrangler 以檢視模式開啟。你可以在“設定編輯器”中更改此行為 。
檢視模式介面
-
資料摘要面板顯示了整體資料集或特定列(如果選中)的詳細摘要統計資訊。
-
你可以從列的標題選單中對列應用任何資料篩選/排序。
-
在 Data Wrangler 的檢視或編輯模式之間切換以訪問內建資料操作。
-
快速洞察標題是你快速檢視每列有價值資訊的地方。根據列的資料型別,快速洞察顯示資料的分佈或資料點的頻率,以及缺失值和不同值。
-
資料網格為你提供了一個可滾動窗格,你可以在其中檢視整個資料集。
編輯模式介面
切換到編輯模式會啟用 Data Wrangler 中的附加功能和使用者介面元素。在以下螢幕截圖中,我們使用 Data Wrangler 將最後一列中的缺失值替換為該列的中位數。
-
操作面板是你搜索 Data Wrangler 所有內建資料操作的地方。這些操作按類別組織。
-
清理步驟面板顯示了已應用的所有操作的列表。它使使用者能夠撤消特定操作或編輯最近的操作。選擇一個步驟將突出顯示資料網格中的更改,並顯示與該操作關聯的生成程式碼。
-
匯出選單允許你將程式碼匯出回 Jupyter Notebook 或將資料匯出到新檔案。
-
當你選擇了一個操作並預覽其對資料的影響時,網格將覆蓋一個資料差異檢視,顯示你對資料所做的更改。
-
程式碼預覽部分顯示了 Data Wrangler 在選擇操作時生成的 Python 和 Pandas 程式碼。未選擇操作時,此部分為空。你可以編輯生成的程式碼,這會導致資料網格突出顯示對資料的影響。
示例:替換資料集中的缺失值
給定一個數據集,常見的資料清理任務之一是處理資料中存在的任何缺失值。下面的示例展示瞭如何使用 Data Wrangler 將列中的缺失值替換為該列的中位數。雖然轉換是透過介面完成的,但 Data Wrangler 還會自動生成替換缺失值所需的 Python 和 Pandas 程式碼。
- 在操作面板中,搜尋填充缺失值操作。
- 在引數中指定你希望用什麼替換缺失值。在這種情況下,我們將用該列的中位數替換缺失值。
- 驗證資料網格顯示的資料差異中的更改是否正確。
- 驗證 Data Wrangler 生成的程式碼是否符合你的預期。
- 應用該操作,它將被新增到你的清理步驟歷史記錄中。
後續步驟
本頁介紹瞭如何快速開始使用 Data Wrangler。有關 Data Wrangler 的完整文件和教程,包括 Data Wrangler 當前支援的所有內建操作,請參閱以下頁面。