audio-transcriber
利用LLM集成,将音频录音智能转换为专业Markdown文档,并自动生成摘要。
作者
Eric Andrade
分类
文档处理安装
热度:85
下载并解压到你的 skills 目录
复制命令,发送给 OpenClaw 自动安装:
下载并安装这个技能 https://openskills.cc/api/download?slug=sickn33-skills-audio-transcriber&locale=zh&source=copy
Audio Transcriber - 智能音频转文档工具
技能概述
Audio Transcriber 是一款零配置的音频转文字工具,能够自动将会议录音、访谈记录等音频文件转录为专业 Markdown 文档,并智能生成会议纪要、行动项和执行摘要。
适用场景
将团队会议、客户通话的录音自动转录为结构化文档,识别不同发言人,提取讨论要点和决议事项,节省手动整理时间。
记者采访、学术讲座、播客录制等场景下,快速将长音频转为可搜索的文字文档,支持 SRT/VTT 字幕导出。
对音频内容进行结构化处理,生成带时间戳的转录文档,便于后续检索、引用和知识沉淀。
核心功能
自动检测系统中的 Faster-Whisper 或 Whisper 引擎,支持 MP3、WAV、M4A、OGG、FLAC、WEBM 等常见格式,无需 API 密钥或手动配置即可开始转录。
基于转录内容自动提取参会人员、讨论主题、决议事项和行动项,可集成 LLM 进一步生成执行摘要,让会议记录更有价值。
支持说话人分离(Diarization),自动识别参与人数和发言片段,同时提取音频时长、文件大小、语言等元数据,输出完整的转录报告。
常见问题
Audio Transcriber 支持哪些音频格式?
支持 MP3、WAV、M4A、OGG、FLAC、WEBM、MP4 等主流音频格式。如果安装了 ffmpeg,还能自动转换不兼容的格式。
转录一个一小时会议需要多久?
使用 Faster-Whisper 时,处理时间约为音频时长的 10-20%(即 1 小时音频约需 6-12 分钟)。具体时间取决于硬件性能和模型选择。
这个工具需要联网使用吗?
不需要。Whisper 和 Faster-Whisper 都是本地运行的模型,转录过程完全离线进行,只有使用 LLM 生成摘要时才需要联网。