如何使用重复进行评估

在实验上配置重复
查看使用重复运行的实验结果

运行多次重复可以更准确地估计系统的性能，因为 LLM 输出不是确定性的。输出可能因重复而异。重复是减少易受高可变性影响的系统（如智能体）中噪声的一种方法。

在实验上配置重复

向 evaluate / aevaluate 函数（Python、TypeScript）添加可选的 num_repetitions 参数，以指定对数据集中的每个示例评估多少次。例如，如果数据集中有 5 个示例并设置 num_repetitions=5，则每个示例将运行 5 次，总共 25 次运行。

from langsmith import evaluate

results = evaluate(
    lambda inputs: label_text(inputs["text"]),
    data=dataset_name,
    evaluators=[correct_label],
    experiment_prefix="Toxic Queries",
    num_repetitions=3,
)

查看使用重复运行的实验结果

如果您使用重复运行实验，输出结果列中将有箭头，以便您可以在表中查看输出。要查看重复中的每次运行，请将鼠标悬停在输出单元格上并单击展开视图。使用重复运行实验时，LangSmith 在表中显示每个反馈分数的平均值。单击反馈分数以查看来自各个运行的反馈分数，或查看重复之间的标准差。 Repetitions

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

自动在实验上运行评估器

如何处理模型速率限制

⌘I

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

如何使用重复进行评估

在实验上配置重复

查看使用重复运行的实验结果

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

​在实验上配置重复

​查看使用重复运行的实验结果

在实验上配置重复

查看使用重复运行的实验结果