prompt-caching
LLM提示词缓存策略,包括Anthropic提示缓存、响应缓存及CAG(缓存增强生成)。适用场景:提示缓存、缓存提示、响应缓存、CAG、缓存增强生成。
作者
分类
开发工具安装
热度:4
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-prompt-caching&locale=zh&source=copy
Prompt Caching - LLM 缓存优化专家
技能概述
Prompt Caching 是一位专注于 LLM 缓存策略的专家,能够通过多层缓存设计将 LLM 调用成本降低 90%,涵盖 prompt 前缀缓存、完整响应缓存和语义相似度匹配等多种优化技术。
适用场景
当应用需要处理大量相似请求时,通过缓存 prompt 前缀和响应结果,可以大幅减少重复的 token 计费,显著降低 API 成本。
对于多轮对话,系统提示词和上下文前缀通常保持不变,使用 Anthropic 原生 prompt caching 可以避免重复计费,提升响应速度。
使用 CAG(Cache Augmented Generation)模式,将知识库文档预缓存到 prompt 中,替代传统 RAG 检索,获得更快响应和更低延迟。
核心功能
利用 Claude 的原生提示词缓存功能,自动识别并缓存重复的 prompt 前缀,减少 token 消耗,特别适合包含大量系统提示词或上下文的场景。
缓存完整的 LLM 响应用于相同或相似的查询,结合语义相似度算法,即使请求不完全一致也能命中缓存,进一步提升命中率。
将常用文档直接预缓存到 prompt 中,而非每次都进行 RAG 检索,适用于文档量不大但访问频繁的知识库场景。
提供智能的缓存过期和更新机制,确保缓存内容保持时效性,避免返回过时或不正确的信息。
常见问题
什么是 prompt caching,如何降低 LLM 成本?
Prompt caching 是一种通过缓存 prompt 的重复部分(如系统提示词、上下文前缀)来减少重复计费的技术。Anthropic 支持原生 prompt caching,当相同的前缀再次出现时,可以避免对这些 token 重复收费。对于包含大量固定内容的请求(如系统提示、文档上下文),成本可降低 90% 以上。
CAG(缓存增强生成)和 RAG 有什么区别?
CAG (Cache Augmented Generation) 将知识库文档直接预缓存到 prompt 中,每次请求无需检索即可使用;而 RAG (Retrieval-Augmented Generation) 每次都需要先检索相关文档。CAG 适合文档量不大但访问频繁的场景,响应更快;RAG 适合大规模知识库,更灵活但延迟更高。
为什么高温度下不适合缓存响应?
高温度(如 temperature > 0.7)会使 LLM 输出更加随机和多样化,相同 prompt 可能产生完全不同的响应。缓存这种响应会失去多样性的价值,且可能导致用户获得陈旧或重复的答案。因此,响应缓存更适合低温度或确定性场景。