Context Compression - AI Agent 上下文压缩策略与评估方法

Context Compression - AI Agent 上下文压缩策略

技能概述

Context Compression 是一个专门为长期运行的 AI agent 会话设计的上下文压缩策略技能，帮助开发者设计和评估有效的压缩方法，在保持关键信息的同时最小化 token 消耗。

适用场景

1. 超长会话管理

当 AI agent 会话生成数百万 token 的对话历史时，压缩变得必不可少。本技能提供三种生产就绪的压缩方法：锚定迭代摘要化、不透明压缩和再生式全摘要，帮助你在信息保留和 token 节省之间找到最佳平衡点。

2. 大型代码库分析

处理超过上下文窗口限制的大型代码库（5M+ token 系统）时，本技能提供三阶段压缩工作流：研究阶段生成架构分析文档，规划阶段转换为实现规范，实施阶段基于规范执行，将海量代码压缩为约 2000 词的可操作规范。

3. 压缩质量评估

构建评估框架来测试压缩质量时，本技能提供基于探针的评估方法，通过召回、跟踪、延续和决策四类问题直接测量功能质量，比传统 ROUGE 或嵌入相似度指标更准确地反映压缩效果。

核心功能

1. 结构化摘要设计

提供明确的摘要结构模板，包含会话意图、文件修改、决策记录、当前状态和下一步行动等部分，通过强制结构化确保关键信息不被静默丢失。研究表明，结构化摘要能将压缩质量提升 0.35 分（满分 5 分），而仅保留 0.7% 的额外 token。

2. 压缩触发策略

支持多种压缩触发策略：固定阈值（70-80% 上下文利用率）、滑动窗口（保留最近 N 轮对话 + 摘要）、基于重要性（优先压缩低相关部分）和任务边界（在逻辑任务完成时压缩）。滑动窗口结合结构化摘要在大多数编码场景中提供最佳平衡。

3. Artifact 跟踪解决方案

识别并解决 artifact 跟踪问题——这是所有压缩方法中最弱的维度（评分仅 2.2-2.5/5.0）。提供独立的 artifact 索引或显式文件状态跟踪方案，确保 AI agent 知道哪些文件被创建、修改或读取，包括函数名、变量名和错误消息等技术细节。

常见问题

什么是 tokens-per-task，为什么它比 tokens-per-request 更重要？

tokens-per-request 只衡量单次请求的 token 数量，但压缩如果丢失关键信息（如文件路径或错误消息），agent 必须重新获取信息、重新探索方法，浪费更多 token。tokens-per-task 衡量从任务开始到完成的总 token 消耗，包括重新获取成本，这才是正确的优化目标。一个压缩策略节省 0.5% token 但导致 20% 更多重新获取，实际上成本更高。

三种压缩方法分别适用于什么场景？

锚定迭代摘要化适用于长期会话（100+ 消息）、需要文件跟踪（编码、调试）、需要验证保留了什么信息的场景。不透明压缩适用于需要最大 token 节省、会话相对较短、重新获取成本低的场景。再生式摘要适用于摘要可解释性关键、会话有清晰阶段边界、每次压缩都可以接受完整上下文审查的场景。

如何评估上下文压缩的质量是否足够好？

使用基于探针的评估方法：压缩后向 agent 提出四类问题——召回（"原始错误消息是什么？"）、跟踪（"我们修改了哪些文件？"）、延续（"下一步应该做什么？"）和决策（"关于 Redis 问题我们决定了什么？"）。如果 agent 能正确回答，说明压缩保留了正确信息；如果猜测或产生幻觉，说明压缩丢失了关键内容。还应关注准确性、上下文感知、artifact 跟踪、完整性、连续性和指令遵循六个维度。

context-compression

作者

分类

安装