当您迭代 LLM 应用程序时(例如更改模型或提示),您会希望比较不同实验的结果。 LangSmith 支持比较视图,让您专注于不同实验之间的关键差异、回归和改进。

打开比较视图

  1. 要访问实验比较视图,请导航到 Datasets & Experiments 页面。
  2. 选择数据集,这将打开 Experiments 选项卡。
  3. 选择两个或更多实验,然后单击 Compare
UI 中的实验视图,选中了 3 个实验并突出显示了 Compare 按钮。

调整表格显示

您可以通过单击 Comparing Experiments 页面顶部的 FullCompact 在不同视图之间切换。 切换 Full 将显示每次运行的输入、输出和参考输出的完整文本。如果参考输出太长而无法在表格中显示,您可以单击 Expand detailed view 以查看完整内容。 您还可以在 Display 设置下拉菜单中选择和隐藏单个反馈键或单个指标,以隔离您在比较视图中需要的信息。

查看回归和改进

在比较视图中,相对于基线实验在指定反馈键上回归的运行将以红色突出显示,而改进的运行将以绿色突出显示。在每列顶部,您可以找到该实验中有多少运行比基线实验做得更好,有多少做得更差。 单击每列顶部的回归或改进按钮以过滤到该特定实验中回归或改进的运行。 比较视图比较 2 个实验,回归和改进分别以红色和绿色突出显示。

更新基线实验和指标

为了跟踪回归,您需要:
  1. 在比较视图顶部的 Baseline 下拉菜单中,选择要比较的 Baseline experiment。默认情况下,最新的实验被选为基线。
  2. 选择您想要重点比较的 Feedback key(评估指标)。默认情况下会分配一个,但您可以根据需要进行调整。
  3. 配置所选反馈键的更高分数是否更好。此偏好将被存储。
The Baseline dropdown highlighted with a selected experiment and feedback key of "hallucination".

打开跟踪

如果您正在评估的示例来自摄取的运行,您可以将鼠标悬停在输出单元格上并单击跟踪图标以打开该运行的跟踪视图。这将在侧面板中打开跟踪。 The View trace icon highlighted from an ingested run.

展开详细视图

从任何单元格,您可以在悬停状态下单击展开图标以打开该特定示例输入的所有实验结果的详细视图,以及反馈键和分数。 An example in the Comparing Experiments view of a expanded view of the repetitions.

查看摘要图表

通过单击页面顶部的 Charts 选项卡查看摘要图表。 The Charts summary page with 8 summary charts for the comparison.

使用实验元数据作为图表标签

您可以根据实验元数据配置图表的 x 轴标签。 x-axis 下拉菜单中选择元数据键以更改图表标签。 x-axis dropdown highlighted with a list of the metadata attached to the experiment.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.