agent-evaluation

测试与基准评估LLM智能体,涵盖行为测试、能力评估、可靠性指标及生产环境监控——即使在现实基准测试中,顶尖智能体的表现也常低于50%。适用场景:智能体测试、智能体评估、智能体基准对比、智能体可靠性验证、智能体测试实践。

作者

安装

热度:10

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-agent-evaluation&locale=zh&source=copy

LLM 智能体评估指南

技能概述


Agent Evaluation 是一套专门用于测试和基准测试 LLM 智能体的评估方法论,涵盖行为测试、能力评估、可靠性指标和生产监控,帮助你在真实场景中准确衡量智能体表现。

适用场景

1. 智能体上线前的质量验证


在将智能体部署到生产环境之前,通过行为回归测试和能力评估来验证其可靠性。这包括统计性测试(多次运行分析结果分布)、行为契约测试(验证智能体的行为不变性)和对抗性测试(主动尝试破坏智能体行为)。

2. 生产环境智能体监控


持续监控已部署智能体的表现,收集可靠性指标并及时发现性能退化。这能够帮助你识别那些在基准测试中表现优异但在真实场景中失败的问题,即使是最顶尖的智能体在真实基准测试中也往往达不到 50% 的通过率。

3. 智能体基准测试设计


设计和实施能够反映真实使用场景的智能体基准测试,避免被指标游戏化。通过多维度评估来防止智能体只针对特定指标优化而偏离实际任务目标。

核心功能

智能体行为测试 (agent-testing)


提供针对 LLM 智能体特性的行为测试方法,与传统软件测试不同,智能体测试需要处理同一输入产生不同输出的情况,以及"正确"答案往往不唯一的问题。支持统计性测试、对抗性测试等多种测试模式。

智能体能力评估 (capability-assessment)


系统化评估智能体在各个维度上的能力表现,包括任务完成率、输出质量、边界情况处理等。帮助你理解智能体的优势与局限,避免过度依赖单一指标。

可靠性指标与监控 (reliability-metrics)


定义和跟踪智能体的关键可靠性指标,包括响应一致性、错误率、性能退化趋势等。特别关注基准测试与生产环境表现之间的差距,提供多维度评估以防止智能体被过度优化特定指标。

常见问题

为什么智能体在基准测试中表现好,但生产环境中却失败?

这是一个普遍现象,被称为"基准-生产差距"。基准测试通常使用标准化的、静态的数据集,而生产环境则充满了多样性、边界情况和意外输入。Agent Evaluation 强调通过行为契约测试和对抗性测试来弥合这一差距,同时建议使用真实场景数据进行测试。

LLM 智能体测试和传统软件测试有什么区别?

传统软件测试期望相同输入产生相同输出,而 LLM 智能体具有随机性和创造性,相同输入可能产生不同但同样有效的输出。因此智能体测试需要采用统计性方法(多次运行分析结果分布)而非单次测试,避免简单的字符串匹配,关注行为模式而非精确输出。

如何防止测试数据泄露到智能体的训练或提示词中?

数据泄露是一个严重问题,会导致智能体在测试中表现虚高。解决方案包括:使用独立且隔离的测试数据集、避免在提示词中包含测试样本、定期更新测试数据、以及监控智能体是否对测试模式过度敏感。Agent Evaluation 将此标记为 critical 级别的风险。