We've raised a $125M Series B to build the platform for agent engineering.
Read more
.
Docs by LangChain home page
LangSmith
Search...
⌘K
GitHub
Try LangSmith
Try LangSmith
Search...
Navigation
LangSmith 评估
Get started
Observability
Evaluation
Prompt engineering
Deployment
Agent Builder
Platform setup
概述
快速入门
概念
评估方法
Datasets
Create a dataset
管理数据集
自定义输出渲染
Set up evaluations
Run an evaluation
Evaluation types
Frameworks & integrations
Evaluation techniques
Improve evaluators
Tutorials
Analyze experiment results
分析实验
比较实验结果
在 UI 中过滤实验
获取实验性能指标
上传在 LangSmith 外部运行的实验
Annotation & human feedback
使用注释队列
设置反馈标准
内联注释跟踪和运行
审计评估器分数
Common data types
示例数据格式
数据集预构建 JSON 架构类型
数据集转换
English
close
LangSmith 评估
Copy page
Copy page
以下部分帮助您创建数据集、运行评估和分析结果:
评估概念
查看核心术语和概念,以了解 LangSmith 中评估的工作原理。
管理数据集
通过 UI 或 SDK 创建和管理用于评估的数据集。
运行评估
使用不同的评估器和技术评估您的应用程序以衡量质量。
分析结果
查看和分析评估结果、比较实验、过滤数据和导出发现。
收集反馈
通过注释队列和输出上的内联注释收集人类反馈。
跟随教程
通过遵循分步教程学习,从简单的聊天机器人到复杂的智能体评估。
Edit the source of this page on GitHub.
Connect these docs programmatically
to Claude, VSCode, and more via MCP for real-time answers.
评估快速入门
Next
⌘I