从提示词游乐场运行评估

LangSmith 允许您直接在 UI 中运行评估。提示词游乐场允许您在一系列输入上测试提示词或模型配置，以查看它在不同上下文或场景中的得分情况，而无需编写任何代码。在运行评估之前，您需要有一个现有数据集。了解如何从 UI 创建数据集。如果您更喜欢在代码中运行实验，请访问使用 SDK 运行评估。

在提示词游乐场中创建实验

通过点击侧边栏中的 Playground 导航到游乐场。
通过选择现有保存的提示词或创建新提示词来添加提示词。
从 Test over dataset 下拉菜单中选择数据集

请注意，数据集输入中的键必须与提示词的输入变量匹配。例如，在上面的视频中，所选数据集的输入键为 “blog”，这与提示词的输入变量正确匹配。
提示词游乐场最多允许 15 个输入变量。

通过点击 Start 或 CMD+Enter 开始实验。这将在数据集中的所有示例上运行提示词，并在数据集详细信息页面中为实验创建一个条目。我们建议在开始实验之前将提示词提交到提示词中心，这样在查看实验时可以轻松引用它。
通过点击 View full experiment 查看完整结果。这将带您进入实验详细信息页面，您可以在其中查看实验的结果。

向实验添加评估分数

通过添加评估器，根据特定标准评估您的实验。使用 +Evaluator 按钮在游乐场中添加 LLM-as-a-judge 或自定义代码评估器。要了解有关通过 UI 添加评估器的更多信息，请访问如何定义 LLM-as-a-judge 评估器。

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

如何评估 LLM 应用程序

如何使用预构建评估器

​在提示词游乐场中创建实验​

​向实验添加评估分数​

在提示词游乐场中创建实验

向实验添加评估分数