批次執行多個提示

注意

批次執行曾經是 AI Toolkit 中一項獨立的 Webview 功能。現在，它已完全整合到 **Agent Builder** 的 **Evaluation** (評估) 選項卡下。您仍然可以透過選擇 **TOOLS** > **Bulk Run** (工具 > 批次執行) 來訪問它。

AI Toolkit 中的批次執行功能允許您以批處理模式針對多個測試用例來測試代理和提示。與一次執行一個提示的 Playground 不同，批次執行透過使用資料集作為輸入並按順序執行所有提示來自動化此過程。

執行後，AI 響應將出現在資料集檢視中，位於您原始提示的旁邊。您可以檢視、比較和匯出包含響應的完整資料集以供進一步分析。

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

啟動批次執行

要在 AI Toolkit 中啟動批次執行，請按照以下步驟操作

在 AI Toolkit 檢視中，從 Activity Bar (活動欄) 中選擇 **Agent Builder**。
使用 `` 格式輸入您的提示和變數。選擇一個模型來執行提示。


在 **Agent Builder** 中切換到 **Evaluation** (評估) 選項卡。



      
        注意AI Toolkit 使用您為代理使用的相同 LLM 模型來生成資料集，這可能會產生費用。您可以在 AI Toolkit GitHub 倉庫 中檢視用於生成資料集的元提示。

選擇 **Generate Data** (生成資料) 來建立合成數據集。
選擇要生成的行數，並檢視或修改資料生成邏輯。 
選擇 **Generate** (生成) 來建立資料集。


      
        提示您可以選擇只執行尚未執行的剩餘查詢。

載入資料集後，選擇 **Run** (執行) 來執行單行，或選擇 **Run All** (全部執行) 來執行資料集中的所有行。

操作資料集

AI Toolkit 在批次執行期間提供了多個操作來管理和分析您的資料集

Generate Data (生成資料): 基於提示和變數建立合成數據集。指定行數並修改資料生成邏輯。
Add Row (新增行): 向資料集中新增新行。
Delete Row (刪除行): 刪除資料集中選定的行。
Export Dataset (匯出資料集): 將資料集匯出為 CSV 檔案，以供進一步分析或報告。
Import Dataset (匯入資料集): 從 CSV 檔案匯入資料集以用作批次執行的輸入。
Run (執行): 針對選定的模型執行資料集中的單行。
Run All (全部執行): 針對選定的模型執行資料集中的所有行。
Run Remaining (執行剩餘): 僅針對選定的模型執行尚未執行的行。
Manual Evaluation (手動評估): 將響應標記為“Thumb Up”（點贊）或“Thumb Down”（點踩），以記錄手動評估。

評估批次執行結果
AI Toolkit 允許您直接在資料集檢視中評估批次執行的結果。

您可以將 **Evaluation** (評估) 選項卡擴充套件到全屏模式，以更詳細地檢視結果。全屏模式提供與標準檢視相同的功能，但顯示區域更大，以便於檢視和分析。

選擇 **View Details** (檢視詳情) 以檢視每個查詢的完整響應。
在詳細檢視中，您可以

檢視使用者與助手之間的完整對話。
分析 AI 的響應。
將響應標記為好或壞，以記錄手動評估。
導航到資料集中的上一條或下一條查詢。
選擇 **Exit** (退出) 返回資料集概覽。
檢視資料集中查詢的總數以及當前查詢的索引。

管理資料列

透過資料列管理，您可以自定義資料集檢視，以專注於對您的批次執行分析最相關的資訊。
您可以

Add Columns (新增列): 在當前列的左側或右側新增列。
Edit Column Name (編輯列名): 更改資料集中任何列的名稱。
Add Ground Truth Column (新增真實值列): 新增一列用於真實值，以便與 AI 響應進行比較。

您學到了什麼
在本文中，您學習瞭如何

為批次執行生成合成資料集。
以 CSV 格式匯入和匯出資料集。
對批次執行結果執行評估。
將響應標記為好或壞，以記錄手動評估。
檢視響應詳情並在資料集中導航查詢。
管理資料列以獲得更好的分析。

後續步驟

使用流行的評估器 執行評估


                
                
                07/14/2025