LLM Application Patterns - RAG 架构与智能体设计指南

LLM Application Patterns - 生产级 LLM 应用架构模式

技能概述

LLM Application Patterns 提供构建生产级大模型应用的完整架构指南，涵盖 RAG 管道、智能体架构、Prompt 工程和 LLMOps 监控等核心模式，帮助开发者快速设计并落地 AI 应用。

适用场景

设计 LLM 驱动的应用

当你需要规划 AI 应用的整体架构时，本技能提供从简单 RAG 到复杂多智能体协作的完整决策矩阵，帮助你选择合适的技术路线。

实现 RAG 检索增强生成

当你需要基于企业知识库构建问答系统时，本技能涵盖文档摄入、向量化存储、混合检索和上下文压缩等全流程实现方案。

构建 LLM 智能体与工具调用

当你需要开发能够使用外部工具的 AI 助手时，本技能提供 ReAct、Function Calling、Plan-and-Execute 等多种智能体架构模式及代码示例。

核心功能

RAG 管道架构设计

提供文档分块策略（固定大小、语义分块、文档感知）、向量数据库选型指南（Pinecone、Weaviate、ChromaDB、pgvector）、混合检索实现（语义+关键词 BM25）以及多查询检索和上下文压缩等高级模式。

智能体架构模式库

包含 ReAct 推理行动模式、Function Calling 结构化工具调用、Plan-and-Execute 规划执行模式以及多智能体协作架构，每种模式均提供完整代码实现和适用场景说明。

LLMOps 与生产实践

涵盖 LLM 应用监控指标（延迟、质量、成本、可靠性）、请求日志与分布式追踪、输出质量评估框架，以及缓存策略、限流重试和降级兜底等生产环境必备能力。

常见问题

LLM 应用有哪些常见的架构模式？

常见模式包括：简单 RAG（适合 FAQ 和文档搜索）、混合 RAG（语义+关键词）、ReAct 智能体（多步骤推理任务）、Function Calling（结构化工具调用）、Plan-Execute（复杂任务规划）和多智能体协作（研究分析类任务）。选择时需综合考虑任务复杂度、开发成本和运行成本。

如何选择合适的向量数据库？

根据场景选择：Pinecone 适合生产环境且需要托管服务，支持数十亿向量；Weaviate 适合自部署和多模态需求；ChromaDB 适合快速开发和原型验证；pgvector 适合已有 Postgres 基础设施的团队。嵌入模型方面，OpenAI text-embedding-3-small 成本低且质量好，本地 BGE-large 模型可完全免费运行。

如何监控生产环境中的 LLM 应用？

需要跟踪四类指标：性能指标（P50/P99 延迟、生成速度）、质量指标（用户满意度、任务完成率、幻觉率）、成本指标（单次请求成本、缓存命中率）和可靠性指标（错误率、超时率、重试率）。建议使用 OpenTelemetry 进行分布式追踪，并建立完整的请求响应日志记录。

llm-app-patterns

作者

分类

安装