评估¶

要评估您的智能体性能，您可以使用 LangSmith 评估功能。首先需要定义一个评估函数，用于判断智能体的结果（如最终输出或执行轨迹）。根据您的评估方法，可能需要也可能不需要参考输出：

def evaluator(*, outputs: dict, reference_outputs: dict):
    # 将智能体输出与参考输出进行比较
    output_messages = outputs["messages"]
    reference_messages = reference_outputs["messages"]
    score = compare_messages(output_messages, reference_messages)
    return {"key": "evaluator_score", "score": score}

要快速开始，您可以使用 AgentEvals 包中预构建的评估器：

pip install -U agentevals

创建评估器¶

评估智能体性能的一种常见方法是将其执行轨迹（调用工具的顺序）与参考轨迹进行比较：

import json
from agentevals.trajectory.match import create_trajectory_match_evaluator

outputs = [
    {
        "role": "assistant",
        "tool_calls": [
            {
                "function": {
                    "name": "get_weather",
                    "arguments": json.dumps({"city": "san francisco"}),
                }
            },
            {
                "function": {
                    "name": "get_directions",
                    "arguments": json.dumps({"destination": "presidio"}),
                }
            }
        ],
    }
]
reference_outputs = [
    {
        "role": "assistant",
        "tool_calls": [
            {
                "function": {
                    "name": "get_weather",
                    "arguments": json.dumps({"city": "san francisco"}),
                }
            },
        ],
    }
]

# 创建评估器
evaluator = create_trajectory_match_evaluator(
    trajectory_match_mode="superset",  # (1)!
)

# 运行评估器
result = evaluator(
    outputs=outputs, reference_outputs=reference_outputs
)

指定轨迹比较方式。superset 表示若输出轨迹是参考轨迹的超集，则视为有效。其他选项包括：strict、unordered 和 subset

下一步，了解更多关于如何自定义轨迹匹配评估器。

使用LLM作为评判者¶

您可以使用“LLM作为评判者”的评估器，该评估器利用大语言模型比较轨迹与参考输出并给出评分：

import json
from agentevals.trajectory.llm import (
    create_trajectory_llm_as_judge,
    TRAJECTORY_ACCURACY_PROMPT_WITH_REFERENCE
)

evaluator = create_trajectory_llm_as_judge(
    prompt=TRAJECTORY_ACCURACY_PROMPT_WITH_REFERENCE,
    model="openai:o3-mini"
)

运行评估器¶

要运行评估器，您首先需要创建一个 LangSmith 数据集。要使用预构建的 AgentEvals 评估器，您需要一个具有以下结构的数据集：

input: {"messages": [...]} 调用智能体时使用的输入消息。
output: {"messages": [...]} 预期的智能体输出消息历史。对于轨迹评估，您可以选择仅保留助手的消息。

^{API Reference: create_react_agent}

from langsmith import Client
from langgraph.prebuilt import create_react_agent
from agentevals.trajectory.match import create_trajectory_match_evaluator

client = Client()
agent = create_react_agent(...)
evaluator = create_trajectory_match_evaluator(...)

experiment_results = client.evaluate(
    lambda inputs: agent.invoke(inputs),
    # 替换为您的数据集名称
    data="<您的数据集名称>",
    evaluators=[evaluator]
)