Langfuse

Langfuse - LLM 应用可观测性与监控专家

技能概述

Langfuse 是开源的 LLM 可观测性平台，帮助开发者追踪、监控和优化生产环境中的大语言模型应用，支持 tracing、prompt 管理、评估和数据集管理。

适用场景

1. 生产环境 LLM 应用监控

当你的 LLM 应用上线后，需要实时了解用户如何使用、模型响应是否正常、成本是否可控时，Langfuse 提供完整的 tracing 和 metrics 功能。它可以追踪每个请求的完整链路，记录 token 使用量、响应延迟、成本等关键指标。

2. Prompt 版本管理与 A/B 测试

当你需要迭代优化 Prompt，想要科学地比较不同版本的效果时，Langfuse 的 prompt management 功能可以帮你版本化管理 Prompt，并通过 evaluation 功能量化对比不同版本的表现。

3. LLM 应用调试与问题排查

当用户反馈问题或模型输出不符合预期时，Langfuse 的 tracing 功能可以帮你重现完整的调用链路，查看每一步的输入输出，快速定位问题根源。特别适用于 LangChain、Agent 等复杂应用的调试。

核心功能

1. LLM Tracing 与 Observability

自动追踪 LLM 调用链路，记录每个 generation（模型调用）、span（操作步骤）的完整上下文。支持 OpenAI、Anthropic、LangChain、LlamaIndex 等主流框架的集成，无需修改大量代码即可实现自动 tracing。通过 trace、span、generation 三层结构清晰呈现调用链路。

2. Prompt管理与版本控制

集中管理所有 Prompt 模板，支持版本控制、A/B 测试和环境隔离。可以在线编辑 Prompt 并立即生效，无需重新部署。与 tracing 数据联动，可以直观看到不同 Prompt 版本的效果差异。

3. 评估与数据集管理

内置 evaluation 功能，支持自定义评分指标和自动化评估流程。可以创建测试数据集，批量测试 Prompt 或模型变更的影响。支持用户反馈收集、自动化评分（如使用 LLM-as-a-judge）等多种评估方式。

常见问题

Langfuse 支持哪些 LLM 框架的集成？

Langfuse 提供原生 SDK（Python 和 TypeScript），同时提供与主流框架的深度集成：OpenAI SDK 的 drop-in 替换、LangChain Callback Handler、LlamaIndex 集成等。无论你是直接调用 API 还是使用框架构建，都可以快速接入。

Langfuse 可以私有部署吗？数据存在哪里？

Langfuse 是开源的，支持完全私有部署（Docker 或 Kubernetes），数据完全由你掌控。同时也提供云服务（cloud.langfuse.com），开箱即用。自托管需要一定的运维投入，但适合对数据安全有严格要求的企业场景。

使用 Langfuse 会影响应用性能吗？

Langfuse 采用异步上报和批量处理，对应用性能影响极小。默认情况下 tracing 数据异步发送到 Langfuse 服务器，不会阻塞主流程。在高并发场景下，可以通过采样率、异步配置等方式进一步优化性能。

作者

分类

安装