开始之前,建议先阅读:
工作原理
LangSmith 的 Align Evaluator 功能提供了一系列步骤,帮助你将 LLM-as-judge 评估器与人工专家反馈对齐。无论是用于离线评估的数据集评估器,还是用于在线评估的追踪项目评估器,流程基本一致:- 选择实验或运行,这些条目包含应用生成的输出。
- 将选定的实验或运行加入标注队列,让人工专家进行标注。
- 使用标注样本测试评估器提示,找出评估器与标注结果不一致的案例,确定需要改进的提示内容。
- 迭代优化以提升对齐度。更新评估器提示并再次测试。
前提条件
在开展离线评估或在线评估流程前,请准备好以下内容:离线评估
在线评估
- 一个已经向 LangSmith 发送追踪数据的应用。
- 先通过任意追踪集成完成配置。
开始使用
无论是新建还是已有评估器,都可以在数据集与追踪项目中开启对齐流程。| 数据集评估器 | 追踪项目评估器 | |
|---|---|---|
| 从零开始创建对齐评估器 | 1. 打开 Datasets & Experiments,选择数据集 2. 点击 + Evaluator > Create from labeled data 3. 输入描述性的反馈键名称(例如 correctness、hallucination) | 1. 打开 Projects,选择项目 2. 点击 + New > Evaluator > Create from labeled data 3. 输入描述性的反馈键名称(例如 correctness、hallucination) |
| 对齐现有评估器 | 1. Datasets & Experiments > 选定数据集 > Evaluators 标签页 2. 在 Align Evaluator with experiment data 面板中点击 Select Experiments | 1. Projects > 选定项目 > Evaluators 标签页 2. 在 Align Evaluator with experiment data 面板中点击 Select Experiments |
1. 选择实验或运行
选取一个或多个实验(或运行),提交至人工标注。这些运行会被加入标注队列。
若需将新的实验或运行添加到现有标注队列,请前往 Evaluators 标签页,选中正在对齐的评估器,点击 Add to Queue。
数据集应尽量覆盖生产环境中可能出现的输入与输出。无需穷举所有场景,但应覆盖预期用例的主要类型。例如,如果你正在构建回答棒球、篮球和橄榄球问题的体育助手,数据集中至少应包含每个项目的一条已标注示例。
2. 标注示例
为标注队列中的示例添加反馈评分。标注完成后,点击 Add to Reference Dataset。如果实验包含大量示例,起步阶段无需全部标注。建议先标注不少于 20 条示例,后续可逐步补充。请确保示例多样(例如正负样本均衡),以便设计出覆盖面更广的评估器提示。
3. 使用标注示例测试评估器提示
完成标注后,下一步是在 Evaluator Playground 中迭代优化评估器提示,让模型尽量贴合标注数据。 进入评估器沙盒的方法:在评估器队列右上角点击 View evaluator 按钮,进入目标评估器详情页,再点击 Evaluator Playground。
在评估器沙盒中,你可以创建或编辑评估器提示,并点击 Start Alignment,让其对第 2 步中标注的样本进行打分。运行完成后,即可对比模型判分与人工标签。对齐得分表示评估器判断与人工专家一致的样本占比。
4. 持续迭代提升对齐度
不断更新提示并重新测试,以持续提升对齐效果。评估器提示的修改默认不会自动保存。建议在看到对齐得分提升后立即保存。评估器沙盒会显示最近一次保存的提示对应的对齐得分,方便你在迭代时进行对比。
提升评估器对齐度的技巧
1. 深入分析不一致示例 先分析评估结果与人工标签不一致的示例,并归纳常见的失败模式,这是改进对齐度的良好起点。 识别出失败模式后,在评估器提示中加入相应说明。例如,如果模型无法理解 “MFA” 的含义,可以明确写出 “MFA 代表多因素认证(multi-factor authentication)”。如果在上下文中“好回复”必须列出至少 3 家可预订酒店,也可以在提示中强调这一标准。 2. 查看评分背后的推理 启用评估器的推理功能,了解 LLM 做出某个评分的原因。推理输出可以揭示模型的思考流程,帮助你发现潜在失败模式,并在提示中加以引导。 要在评估器沙盒中查看推理结果,把鼠标悬停在 LLM 评分上方。
此操作会展示该示例的评分推理过程。
3. 增加标注样本并验证表现
为避免过拟合初始样本,务必逐步扩充标注数据并验证模型表现,尤其是在初期样本数量较少的情况下。