ElevenLabs Automation

ElevenLabs 文本转语音自动化集成

通过 Composio MCP 集成，为 AI Agent 添加 ElevenLabs 文本转语音能力，实现自动化语音生成、语音库浏览、订阅监控和历史记录检索。

ElevenLabs Automation 是一个 MCP (Model Context Protocol) 集成工具，让开发者可以在 AI Agent 中直接调用 ElevenLabs 的文本转语音 API，无需编写额外的集成代码。

为播客、有声书、视频教程批量生成配音。支持从文本脚本自动创建高质量语音内容，适合内容创作者和自媒体团队提升制作效率。

利用 ElevenLabs 的多语言模型，为国际化项目自动生成各语言版本的语音内容，覆盖教育、客服、导航等场景。

通过流式传输功能，构建低延迟的语音对话系统，适用于智能客服、语音助手、实时翻译等需要即时语音反馈的应用。

将文本内容转换为自然流畅的语音音频，支持多种模型选择（包括 Multilingual v2、Turbo v2、Flash 等）和输出格式（MP3、PCM、uLaw）。可设置种子值实现语音 reproducibility，并支持自定义发音词典，单次最多支持 40,000 字符（v2.5 模型）。

获取所有可用语音列表及其元数据（性别、口音、使用场景标签），支持单个语音的详细信息查询，帮助开发者选择最合适的语音角色进行内容创作。

实时查询账户订阅信息和剩余字符配额，避免因额度不足导致的生成失败。适合批量任务前的预检和资源规划。

通过添加 Composio MCP 服务器 https://rube.app/mcp 到你的 MCP 客户端，在首次调用时连接 ElevenLabs 账户（需要 API Key），即可在 Agent 中使用所有 ElevenLabs 功能。

大多数模型单次请求限制约 10,000-20,000 字符，Flash/Turbo v2 支持最多 30,000 字符，v2.5 模型支持最多 40,000 字符。超出限制会返回 HTTP 400 错误。建议将长文本拆分为 5000 字符左右的分片分别生成。

ELEVENLABS_TEXT_TO_SPEECH 返回的是 S3 预签名下载链接（data.file.s3url），有效期约 1 小时。需要及时下载音频文件到本地存储，避免链接过期后无法访问。