evaluation

构建智能体系统评估框架

作者

安装

热度:12

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-evaluation&locale=zh&source=copy

Agent Evaluation Framework - 构建智能体系统评估框架

技能概述


Evaluation 技能帮助您为非确定性智能体系统构建全面的评估框架,通过多维度评分标准和持续监控管道,确保系统质量并捕捉回归问题。

适用场景

1. 系统性测试智能体性能


当您需要验证智能体在复杂任务中的表现时,此技能提供 Outcome-focused 评估方法。智能体可能采用不同的有效路径达成目标,传统基于步骤的测试会失效。该技能教您如何设计多维度评分标准(事实准确性、完整性、引用准确性、源质量和工具效率),判断智能体是否在遵循合理流程的同时实现了正确结果。

2. 验证上下文工程选择


当您优化提示词、上下文窗口或工具配置时,需要系统化评估这些变更的实际效果。此技能指导您构建评估管道,在同一测试集上比较不同上下文策略的质量分数、Token 使用量和效率指标,并通过上下文降解测试识别性能临界点。

3. 生产环境持续监控


部署后需要持续跟踪智能体质量时,此技能提供生产监控方案。通过随机采样交互进行评估、设置质量下降告警、维护趋势分析仪表盘,确保生产环境中的智能体表现符合预期。

核心功能

1. 多维度评估标准设计


构建涵盖事实准确性、完整性、引用准确性、源质量和工具效率的综合评分体系。将各维度评估转换为数值分数(0.0 到 1.0)并按用例需求加权计算总体分数,设置明确的通过/失败阈值。

2. LLM-as-Judge 自动化评估


使用大语言模型作为评判者,实现大规模测试集的可扩展评估。通过精心设计的评估提示词捕获目标维度,提供清晰的任务描述、智能体输出、参考答案(如有)、带级别描述的评估量表,并请求结构化判断。

3. 测试集分层设计


按照复杂度级别构建测试集:简单(单次工具调用)、中等(多次工具调用)、复杂(大量工具调用、显著模糊性)和非常复杂(扩展交互、深度推理)。从真实使用模式中采样,添加已知边界情况,确保覆盖所有复杂度级别。

常见问题

如何评估非确定性智能体系统?


智能体在不同运行间可能采取完全不同的有效路径达成目标。传统检查特定步骤的评估方法在此场景下会失效。解决方案是采用结果导向的评估方法,判断智能体是否在遵循合理流程的同时实现了正确的最终结果,而非强制要求特定的执行路径。

什么是 LLM-as-Judge 评估?


LLM-as-judge 是使用大语言模型对智能体输出进行自动化评估的方法。其核心是设计有效的评估提示词,捕获目标评估维度。评估时应提供清晰的任务描述、智能体输出、参考答案(如有)、带级别描述的评估量表,并请求结构化判断。此方法可扩展到大规模测试集并提供一致的判断,但应辅以人工评估以捕获边界情况。

BrowseComp 研究中的 95% 发现是什么?


研究显示,Token 使用量(80%)、工具调用次数(约 10%)和模型选择(约 5%)这三个因素解释了智能体性能差异的 95%。这意味着:评估时应使用现实的 Token 预算而非无限资源;升级到更新的模型比在旧版本上增加 Token 预算收益更大;该发现验证了将工作分配给具有独立上下文窗口的多个智能体的架构模式。