本操作指南将引导您了解为多轮对话设置游乐场的各种方式,这将允许您针对更长的消息线程测试不同的工具配置和系统提示。

从现有运行

首先,确保已正确跟踪多轮对话,然后导航到您的跟踪项目。到达跟踪项目后,只需打开运行,选择 LLM 调用,并在游乐场中打开它,如下所示: 然后,您可以编辑系统提示,调整工具和/或输出架构,并观察多轮对话的输出如何变化。

从数据集

开始之前,请确保已设置数据集。由于您想评估多轮对话,请确保输入中有一个键包含消息列表。 创建数据集后,转到游乐场并加载数据集以进行评估。 然后,向提示添加消息列表变量,确保将其命名为与包含消息列表的输入中的键相同: 运行提示时,每个示例中的消息将作为列表添加到”Messages List”变量的位置。

手动

有两种方法可以手动创建多轮对话。第一种方法是简单地向提示追加消息: 这有助于快速迭代,但由于多轮对话是硬编码的,因此很僵化。相反,如果您希望提示适用于任何多轮对话,可以添加”Messages List”变量并在那里添加多轮对话: 这允许您只需调整系统提示或工具,同时允许任何多轮对话替代 Messages List 变量,允许您在各种运行中重用此提示。

后续步骤

现在您知道如何为多轮交互设置游乐场,您可以手动检查和判断输出,或者可以添加评估器来分类结果。 您还可以阅读这些操作指南以了解有关如何使用游乐场运行评估的更多信息。
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.