prompt-caching

LLM提示词缓存策略,包括Anthropic提示缓存、响应缓存及CAG(缓存增强生成)。适用场景:提示缓存、缓存提示、响应缓存、CAG、缓存增强生成。

作者

安装

热度:4

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-prompt-caching&locale=zh&source=copy

Prompt Caching - LLM 缓存优化专家

技能概述


Prompt Caching 是一位专注于 LLM 缓存策略的专家,能够通过多层缓存设计将 LLM 调用成本降低 90%,涵盖 prompt 前缀缓存、完整响应缓存和语义相似度匹配等多种优化技术。

适用场景

  • 高并发 LLM 应用

  • 当应用需要处理大量相似请求时,通过缓存 prompt 前缀和响应结果,可以大幅减少重复的 token 计费,显著降低 API 成本。

  • 长对话场景

  • 对于多轮对话,系统提示词和上下文前缀通常保持不变,使用 Anthropic 原生 prompt caching 可以避免重复计费,提升响应速度。

  • 文档问答系统

  • 使用 CAG(Cache Augmented Generation)模式,将知识库文档预缓存到 prompt 中,替代传统 RAG 检索,获得更快响应和更低延迟。

    核心功能

  • Anthropic Prompt Caching

  • 利用 Claude 的原生提示词缓存功能,自动识别并缓存重复的 prompt 前缀,减少 token 消耗,特别适合包含大量系统提示词或上下文的场景。

  • Response Caching & 语义匹配

  • 缓存完整的 LLM 响应用于相同或相似的查询,结合语义相似度算法,即使请求不完全一致也能命中缓存,进一步提升命中率。

  • Cache Augmented Generation (CAG)

  • 将常用文档直接预缓存到 prompt 中,而非每次都进行 RAG 检索,适用于文档量不大但访问频繁的知识库场景。

  • 缓存失效策略管理

  • 提供智能的缓存过期和更新机制,确保缓存内容保持时效性,避免返回过时或不正确的信息。

    常见问题

    什么是 prompt caching,如何降低 LLM 成本?

    Prompt caching 是一种通过缓存 prompt 的重复部分(如系统提示词、上下文前缀)来减少重复计费的技术。Anthropic 支持原生 prompt caching,当相同的前缀再次出现时,可以避免对这些 token 重复收费。对于包含大量固定内容的请求(如系统提示、文档上下文),成本可降低 90% 以上。

    CAG(缓存增强生成)和 RAG 有什么区别?

    CAG (Cache Augmented Generation) 将知识库文档直接预缓存到 prompt 中,每次请求无需检索即可使用;而 RAG (Retrieval-Augmented Generation) 每次都需要先检索相关文档。CAG 适合文档量不大但访问频繁的场景,响应更快;RAG 适合大规模知识库,更灵活但延迟更高。

    为什么高温度下不适合缓存响应?

    高温度(如 temperature > 0.7)会使 LLM 输出更加随机和多样化,相同 prompt 可能产生完全不同的响应。缓存这种响应会失去多样性的价值,且可能导致用户获得陈旧或重复的答案。因此,响应缓存更适合低温度或确定性场景。