Context Window Management - LLM 上下文工程与 Token 优化指南

Context Window Management - LLM 上下文窗口管理专家

Context Window Management 是一个专为大语言模型应用设计的上下文工程专家技能，帮助你优化对话中的 token 使用、避免上下文腐烂、并在有限的上下文窗口内保持对话质量。

处理长对话历史：当你的 AI 应用需要维护长时间的多轮对话时，该技能可以帮助你智能管理上下文，在保留关键信息的同时控制 token 消耗。

Token 限制优化：当你面临严格的 token 预算或 API 成本压力时，该技能提供摘要、裁剪和优先级排序等策略，在有限资源下最大化对话质量。

避免信息丢失：当系统出现"上下文腐烂"或对话中关键信息被忽略时，该技能基于 serial position effect 和 lost-in-the-middle 等认知原理，提供内容布局和优先级管理方案。

智能上下文摘要：不是简单地按时间裁剪，而是根据信息重要性进行智能摘要。该技能知道什么时候应该摘要、什么时候应该检索原始信息，以及如何平衡摘要的完整性和简洁性。

分层上下文策略：根据对话规模动态调整管理策略——从小型对话的全量保留，到中型对话的选择性摘要，再到大型对话的检索增强方案。

Token 优化与计数：实时追踪 token 使用情况，提供精确的计数和优化建议，帮助你做出成本与效果的最佳权衡。

Context rot（上下文腐烂）是指随着对话变长，早期信息在上下文窗口中被"淹没"或模型关注度下降的现象。避免方法包括：定期摘要关键信息、使用序列位置优化（重要内容放首尾）、以及实施上下文优先级管理策略。

没有通用的最佳大小，取决于具体应用。该技能推荐分层策略：简单任务 4K-8K token，标准对话 16K-32K，复杂任务使用 128K+ 配合摘要和检索。关键是匹配任务需求，而非盲目追求大窗口。

该技能提供多种策略：按重要性摘要而非按时间裁剪、使用 RAG 检索关键历史片段、实施上下文路由（不同类型信息走不同处理通道）。核心原则是保留影响决策的高价值信息，而非盲目追求最大上下文。