自托管版本要求访问警报需要 Helm chart 版本 0.10.3 或更高版本。

概述

LLM 应用程序中有效的可观测性需要主动检测故障、性能下降和回归。LangSmith 的警报功能有助于识别关键问题,例如:
  • 模型提供商的 API 速率限制违规
  • 应用程序的延迟增加
  • 影响反映最终用户体验的反馈分数的应用程序更改
LangSmith 中的警报是项目范围的,需要为每个监控的项目单独配置。

配置警报

步骤 1:导航到创建警报

首先导航到您想要配置警报的跟踪项目。单击页面右上角的警报图标以查看该项目的现有警报并设置新警报。

步骤 2:选择指标类型


Alert Metrics
LangSmith 在三个核心指标上提供基于阈值的警报:
指标类型描述用例
错误运行跟踪具有错误状态的运行监控应用程序中的故障。
反馈分数衡量平均反馈分数跟踪最终用户的反馈在线评估结果以对回归发出警报。
延迟衡量平均运行执行时间跟踪应用程序的延迟以对峰值和性能瓶颈发出警报。
此外,对于错误运行运行延迟,您可以定义过滤器以缩小触发警报的运行范围。例如,您可以为所有标记为 support_agent 且遇到 RateLimitExceeded 错误的 llm 运行创建错误警报过滤器。
Alert Metrics

步骤 2:定义警报条件

警报条件包含几个组件:
  • 聚合方法:平均值、百分比或计数
  • 比较运算符>=<= 或超过阈值
  • 阈值:触发警报的数值
  • 聚合窗口:指标计算的时间段(目前可选择 5 或 15 分钟)
  • 反馈键(仅反馈分数警报):要监控的特定反馈指标

Alert Condition Configuration
示例: 上面显示的配置将在过去 5 分钟内超过 5% 的运行导致错误时生成警报。 您可以在历史时间窗口内预览警报行为,以了解有多少数据点(以及哪些数据点)会在选定的阈值下触发警报(以红色表示)。例如,为项目设置 60 秒的平均延迟阈值可以让您可视化潜在的警报,如下图所示。
Alert Metrics

步骤 3:配置通知渠道

LangSmith 支持以下通知渠道:
  1. PagerDuty 集成
  2. Webhook 通知
选择适当的渠道以确保通知到达负责的团队成员。

最佳实践

  • 根据应用程序的关键性调整敏感度
  • 从更宽的阈值开始,并根据观察到的模式进行优化
  • 确保警报路由到达适当的值班人员

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.