context-optimization

应用压缩、掩码和缓存策略

作者

安装

热度:1

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-context-optimization&locale=zh&source=copy

Context Optimization - 上下文窗口优化技术

技能概述


Context Optimization 通过压缩、掩码、缓存和分区策略,在不增加模型或上下文大小的前提下,将有效上下文容量提升 2-3 倍。

适用场景

  • 长对话成本优化:当多轮对话导致 Token 消耗激增、API 成本过高时,应用压缩和掩码策略可减少 50-70% 的 Token 使用量。
  • 大文档处理:需要处理超出上下文窗口限制的大型文档或知识库时,通过上下文分区将任务拆分到隔离的子代理中并行处理。
  • 生产环境 AI 系统:构建长期运行、高并发的 Agent 系统时,使用 KV-Cache 优化和预算管理来降低延迟、提升吞吐量。
  • 核心功能

  • 上下文压缩(Compaction)

  • 当上下文使用率接近 70-80% 时自动触发,对工具输出、历史对话和检索文档进行智能总结,保留关键信息并丢弃冗余内容。优先压缩顺序:已使用的工具输出 > 早期对话 > 可更新的检索文档。系统提示词永远不压缩。

  • 观察掩码(Observation Masking)

  • 将冗长的工具输出替换为紧凑引用 ID,减少 60-80% 的上下文占用。信息仍可按需访问,但不会持续消耗上下文。适用于 3 轮之前的观察结果、重复输出和已提炼的信息。

  • KV-Cache 优化

  • 通过调整上下文元素顺序(稳定内容在前 → 复用模板居中 → 独特内容在后)最大化缓存命中率。使用一致的提示词格式和避免动态时间戳,使稳定工作负载的缓存命中率超过 70%。

    常见问题

    如何判断何时需要优化上下文?


    监控以下指标:上下文使用率超过 70%、对话延长时响应质量下降、成本随上下文长度增加、延迟随对话增长。当任一指标出现异常时,应根据上下文成分选择对应策略:工具输出主导用掩码,检索文档主导用分区,消息历史主导用压缩。

    上下文压缩会导致质量下降吗?


    合理的压缩策略可保持质量损失在 5% 以内。关键在于选择性保留:工具输出保留关键结论和指标,对话保留决策和承诺,文档保留事实主张。避免压缩系统提示词和当前任务相关的观察结果。

    KV-Cache 优化能节省多少成本?


    对于具有稳定前缀(如系统提示词、工具定义)的工作负载,KV-Cache 可减少 30-50% 的计算成本和延迟。优化要点是将可复用内容放在上下文前面,并保持提示词结构的一致性,避免动态内容如时间戳破坏缓存。