批次執行多個提示
注意
批次執行以前是 AI 工具包中的一個獨立網頁檢視功能。現在,它已完全整合到 Agent Builder 的評估選項卡中。您仍然可以透過選擇 工具 > 批次執行,從 AI 工具包檢視訪問它。
AI 工具包中的批次執行功能允許您以批處理模式針對多個測試用例測試代理和提示。與一次執行一個提示的 Playground 不同,批次執行透過使用資料集作為輸入並順序執行所有提示來自動化該過程。
執行後,AI 響應會顯示在資料集檢視中,緊鄰您的原始提示。您可以檢視、比較和匯出包含響應的完整資料集,以進行進一步分析。
開始批次執行
要在 AI 工具包中開始批次執行,請按照以下步驟操作:
- 在 AI 工具包檢視中,從活動欄中選擇 Agent Builder。
- 使用
格式輸入您的提示和變數。選擇一個模型來執行提示。
- 切換到 Agent Builder 中的評估選項卡。
注意
AI 工具包使用您用於代理的相同 LLM 模型來生成資料集,這可能會產生費用。您可以在 AI 工具包 GitHub 儲存庫中檢視用於生成資料集的元提示。
- 選擇生成資料以建立合成數據集。
- 選擇要生成的行數並檢視或修改資料生成邏輯。
- 選擇生成以建立資料集。
提示
您可以選擇只執行尚未執行的剩餘查詢。
- 資料集載入後,選擇執行以執行單行或執行全部以執行資料集中所有行。
操作資料集
AI 工具包提供了多種操作來在批次執行期間管理和分析您的資料集:
- 生成資料:根據提示和變數建立合成數據集。指定行數並修改資料生成邏輯。
- 新增行:向資料集中新增新行。
- 刪除行:從資料集中刪除選定的行。
- 匯出資料集:將資料集匯出到 CSV 檔案以進行進一步分析或報告。
- 匯入資料集:從 CSV 檔案匯入資料集以用作批次執行的輸入。
- 執行:針對選定模型執行資料集中的單行。
- 執行全部:針對選定模型執行資料集中所有行。
- 執行剩餘:僅針對選定模型執行尚未執行的行。
- 手動評估:將響應標記為“贊”或“踩”以記錄手動評估。
評估批次執行結果
AI 工具包允許您直接在資料集檢視中評估批次執行的結果。
您可以將評估選項卡展開到全屏模式,以更詳細地檢視結果。全屏模式提供與標準檢視相同的功能,但具有更大的顯示區域,以獲得更好的可見性和分析。
選擇檢視詳情以檢視每個查詢的完整響應。
在詳細檢視中,您可以:
- 檢視使用者和助手之間的完整對話。
- 分析 AI 的響應。
- 將響應標記為“好”或“壞”以記錄手動評估。
- 導航到資料集中的上一個或下一個查詢。
- 選擇退出以返回到資料集概述。
- 檢視資料集中的查詢總數和當前查詢索引。
管理資料列
透過資料列管理,您可以自定義資料集檢視,以專注於批次執行分析中最相關的資訊。
您可以:
- 新增列:在當前列的左側或右側新增列。
- 編輯列名:更改資料集中任何列的名稱。
- 新增真實值列:新增一個用於真實值列,以與 AI 響應進行比較。
您學到了什麼
在本文中,您學習瞭如何
- 為批次執行生成合成資料集。
- 以 CSV 格式匯入和匯出資料集。
- 對批次執行結果進行評估。
- 將響應標記為“好”或“壞”以記錄手動評估。
- 檢視響應詳情並在資料集中的查詢之間導航。
- 管理資料列以進行更好的分析。