參加你附近的 ,瞭解 VS Code 中的 AI 輔助開發。

評估模型、提示和代理

您可以透過將模型、提示和代理的輸出與真實資料進行比較並計算評估指標來評估它們。AI 工具包簡化了此過程。只需少量工作即可上傳資料集並執行全面的評估。

Screenshot showing the start of an evaluation in AI Toolkit.

評估提示和代理

您可以在 代理生成器 中透過選擇 評估 選項卡來評估提示和代理。在評估之前,針對資料集執行您的提示或代理。閱讀有關 批次執行 的更多資訊,瞭解如何使用資料集。

評估提示或代理

  1. 代理生成器 中,選擇 評估 選項卡。
  2. 新增並執行您要評估的資料集。
  3. 使用點贊和點踩圖示來評價響應並記錄您的手動評估。
  4. 要新增評估器,請選擇 新建評估
  5. 從內建評估器列表中選擇一個評估器,例如 F1 分數、相關性、連貫性或相似性。
    注意

    使用 GitHub 託管的模型執行評估時,可能會適用 速率限制

  6. 如果需要,選擇一個模型作為評估的評判模型。
  7. 選擇 執行評估 以啟動評估作業。

Screenshot showing the Evaluation tab in Agent Builder with options to select evaluators, judging models, and run evaluation against a dataset.

版本控制和評估比較

AI 工具包支援提示和代理的版本控制,因此您可以比較不同版本的效能。建立新版本時,您可以執行評估並與以前的版本比較結果。

儲存提示或代理的新版本

  1. 代理生成器 中,定義系統或使用者提示,新增變數和工具。
  2. 執行代理或切換到 評估 選項卡並新增資料集進行評估。
  3. 當您對提示或代理滿意時,從工具欄中選擇 另存為新版本
  4. (可選)提供版本名稱並按 Enter 鍵。

檢視版本歷史記錄

您可以在 代理生成器 中檢視提示或代理的版本歷史記錄。版本歷史記錄顯示所有版本以及每個版本的評估結果。

Screenshot showing the Version History dialog with a list of saved versions of a prompt or agent.

在版本歷史記錄檢視中,您可以

  • 選擇版本名稱旁邊的鉛筆圖示以重新命名版本。
  • 選擇垃圾桶圖示以刪除版本。
  • 選擇版本名稱以切換到該版本。

比較版本之間的評估結果

您可以在 代理生成器 中比較不同版本的評估結果。結果顯示在表中,顯示每個評估器的分數和每個版本的總分。

比較版本之間的評估結果

  1. 代理生成器 中,選擇 評估 選項卡。
  2. 從評估工具欄中,選擇 比較
  3. 從列表中選擇您要比較的版本。
    注意

    比較功能僅在代理生成器的全屏模式下可用,以便更好地檢視評估結果。您可以展開 提示 部分以檢視模型和提示詳細資訊。

  4. 所選版本的評估結果顯示在表中,允許您比較每個評估器的分數和每個版本的總分。

Screenshot showing the Evaluation tab in Agent Builder with the interface for comparing evaluation results between different versions.

內建評估器

AI 工具包提供了一組內建評估器來衡量您的模型、提示和代理的效能。這些評估器根據您的模型輸出和真實資料計算各種指標。

適用於代理

  • 意圖解析:衡量代理識別和解決使用者意圖的準確性。
  • 任務遵循度:衡量代理執行已識別任務的程度。
  • 工具呼叫準確性:衡量代理選擇和呼叫正確工具的程度。

用於一般用途

  • 連貫性:衡量響應的邏輯一致性和流暢性。
  • 流暢性:衡量自然語言質量和可讀性。

適用於 RAG(檢索增強生成)

  • 檢索:衡量系統檢索相關資訊的有效性。

用於文字相似性

  • 相似性:AI 輔助的文字相似性度量。
  • F1 分數:響應和真實值之間標記重疊的精確度和召回率的調和平均值。
  • BLEU:用於翻譯質量的雙語評估替補分數;衡量響應和真實值之間 n-gram 的重疊。
  • GLEU:Google-BLEU 的句子級評估變體;衡量響應和真實值之間 n-gram 的重疊。
  • METEOR:帶顯式排序的翻譯評估指標;衡量響應和真實值之間 n-gram 的重疊。

AI 工具包中的評估器基於 Azure 評估 SDK。要了解有關生成式 AI 模型可觀察性的更多資訊,請參閱 Azure AI Foundry 文件

啟動獨立評估作業

  1. 在 AI 工具包檢視中,選擇 工具 > 評估 以開啟評估檢視。

  2. 選擇 建立評估,然後提供以下資訊

    • 評估作業名稱:使用預設名稱或輸入自定義名稱。
    • 評估器:從內建評估器或自定義評估器中選擇。
    • 評判模型:如果需要,選擇一個模型作為評判模型。
    • 資料集:選擇一個示例資料集進行學習,或匯入一個包含 queryresponseground truth 欄位的 JSONL 檔案。
  3. 建立了一個新的評估作業。系統會提示您開啟評估作業詳細資訊。

    Screenshot showing the Open Evaluation dialog in AI Toolkit.

  4. 驗證您的資料集並選擇 執行評估 以開始評估。

    Screenshot showing the Run Evaluation dialog in AI Toolkit.

監控評估作業

啟動評估作業後,您可以在評估作業檢視中檢視其狀態。

Screenshot showing a running evaluation in AI Toolkit.

每個評估作業都包含一個指向所用資料集的連結、評估過程的日誌、一個時間戳以及一個指向評估詳細資訊的連結。

查詢評估結果

評估作業詳細資訊檢視顯示每個選定評估器的結果表。某些結果可能包含聚合值。

您還可以選擇 在 Data Wrangler 中開啟 以使用 Data Wrangler 擴充套件 開啟資料。

Screenshot showing the Data Wrangler extension with evaluation results.

建立自定義評估器

您可以建立自定義評估器以擴充套件 AI 工具包的內建評估功能。自定義評估器允許您定義自己的評估邏輯和指標。

Screenshot showing the custom evaluator creation interface in AI Toolkit.

建立自定義評估器

  1. 評估 檢視中,選擇 評估器 選項卡。

  2. 選擇 建立評估器 以開啟建立表單。

    Screenshot showing the form to create a new custom evaluator.

  3. 提供所需資訊

    • 名稱:輸入您的自定義評估器的名稱。
    • 描述:描述評估器的作用。
    • 型別:選擇評估器型別:基於 LLM 或基於程式碼 (Python)。
  4. 按照所選型別的說明完成設定。

  5. 選擇 儲存 以建立自定義評估器。

  6. 建立自定義評估器後,它會出現在您建立新的評估作業時可選擇的評估器列表中。

基於 LLM 的評估器

對於基於 LLM 的評估器,使用自然語言提示定義評估邏輯。

編寫提示以指導評估器評估特定質量。定義標準、提供示例並使用 等變數以實現靈活性。根據需要自定義量表或反饋樣式。

確保 LLM 輸出 JSON 結果,例如:{"score": 4, "reason": "The response is relevant but lacks detail."}

您還可以使用 示例 部分來開始使用您的基於 LLM 的評估器。

Screenshot showing the LLM-based evaluator configuration in AI Toolkit.

基於程式碼的評估器

對於基於程式碼的評估器,使用 Python 程式碼定義評估邏輯。程式碼應返回包含評估分數和原因的 JSON 結果。

Screenshot showing the Evaluators tab in AI Toolkit with options for creating code-based evaluators.

AI 工具包根據您的評估器名稱以及您是否使用外部庫提供了一個腳手架。

您可以修改程式碼以實現您的評估邏輯

# The method signature is generated automatically. Do not change it.
# Create a new evaluator if you want to change the method signature or arguments.
def measure_the_response_if_human_like_or_not(query, **kwargs):
    # Add your evaluator logic to calculate the score.

    # Return an object with score and an optional string message to display in the result.
    return {
        "score": 3,
        "reason": "This is a placeholder for the evaluator's reason."
    }

您學到了什麼

在本文中,您學習瞭如何

  • 在 VS Code 的 AI 工具包中建立並執行評估作業。
  • 監控評估作業的狀態並檢視其結果。
  • 比較不同版本提示和代理的評估結果。
  • 檢視提示和代理的版本歷史記錄。
  • 使用內建評估器透過各種指標衡量效能。
  • 建立自定義評估器以擴充套件內建評估功能。
  • 將基於 LLM 和基於程式碼的評估器用於不同的評估場景。