批量執行多個 Prompt
批量執行 (Bulk Run) 原先是 AI Toolkit 中的獨立網頁檢視功能。現在它已完全整合到 Agent Builder 中的 Evaluation (評估) 分頁。您仍然可以透過 AI Toolkit 檢視,選擇 TOOLS > Bulk Run 來存取它。
AI Toolkit 中的批量執行功能讓您可以批次模式針對多個測試案例來測試代理程式 (Agent) 和 Prompt。與一次執行一個 Prompt 的 Playground 不同,批量執行透過使用數據集作為輸入並依序執行所有 Prompt 來實現自動化。
執行後,AI 回應會出現在原始 Prompt 旁邊的數據集檢視中。您可以審閱、比較並匯出包含回應的完整數據集,以進行進一步分析。

開始批量執行
若要在 AI Toolkit 中開始批量執行,請依照下列步驟操作:
- 在 AI Toolkit 檢視中,從活動列 (Activity Bar) 選擇 Agent Builder。
- 輸入您的 Prompt 和使用
{{variable}}格式的變數。選擇一個用於執行該 Prompt 的模型。 - 切換至 Agent Builder 中的 Evaluation (評估) 分頁。
AI Toolkit 使用與您為代理程式所使用的相同 LLM 模型來生成數據集,這可能會產生費用。您可以在 AI Toolkit GitHub 儲存庫中查看用於生成數據集的元提示 (Meta Prompt)。
- 選擇 Generate Data (生成數據) 以建立合成數據集。
- 選擇要生成的列數,並查看或修改數據生成邏輯。

- 選擇 Generate (生成) 以建立數據集。
您可以選擇僅執行尚未執行的剩餘查詢。
- 載入數據集後,選擇 Run (執行) 以執行單一列,或選擇 Run All (全部執行) 以執行數據集中的所有列。
對數據集進行操作

AI Toolkit 提供多種操作來管理和分析批量執行期間的數據集:
- Generate Data (生成數據):根據 Prompt 和變數建立合成數據集。指定列數並修改數據生成邏輯。
- Add Row (新增列):在數據集中新增一列。
- Delete Row (刪除列):從數據集中刪除所選列。
- Export Dataset (匯出數據集):將數據集匯出為 CSV 檔案,以供進一步分析或報告。
- Import Dataset (匯入數據集):從 CSV 檔案匯入數據集,作為批量執行的輸入。
- Run (執行):針對所選模型執行數據集中的單一列。
- Run All (全部執行):針對所選模型執行數據集中的所有列。
- Run Remaining (執行剩餘):僅針對所選模型執行數據集中尚未執行的列。
- Manual Evaluation (人工評估):將回應標記為「讚」或「倒讚」,以記錄人工評估結果。
評估批量執行結果
AI Toolkit 讓您可以直接在數據集檢視中評估批量執行的結果。

您可以將 Evaluation (評估) 分頁展開至全螢幕模式,以更詳細地檢視結果。全螢幕模式提供與標準檢視相同的功能,但具有更大的顯示區域,以便於觀察和分析。

選擇 View Details (檢視詳細資料) 以查看每個查詢的完整回應。
在詳細檢視中,您可以:
- 審閱使用者與助理之間的完整對話。
- 分析 AI 的回應。
- 將回應標記為良好或不佳,以記錄人工評估結果。
- 導覽至數據集中的上一個或下一個查詢。
- 選擇 Exit (離開) 返回數據集概覽。
- 查看數據集中的查詢總數以及目前的查詢索引。
管理數據欄

透過數據欄管理,您可以自訂數據集檢視,將重點放在與批量執行分析最相關的資訊上。
您可以:
- Add Columns (新增欄):在目前欄的左側或右側新增欄。
- Edit Column Name (編輯欄位名稱):更改數據集中任何欄的名稱。
- Add Ground Truth Column (新增基準真相欄):新增一個用於存放基準真相 (Ground Truth) 值的欄,以與 AI 回應進行比較。
您所學到的內容
在本文章中,您學習了如何:
- 為批量執行生成合成數據集。
- 以 CSV 格式匯入和匯出數據集。
- 對批量執行結果進行評估。
- 將回應標記為良好或不佳,以記錄人工評估結果。
- 查看回應詳細資料,並在數據集中的查詢之間進行導覽。
- 管理數據欄以進行更好的分析。
後續步驟
- 執行評估(使用熱門的評估器)