markitdown

将文件与办公文档转换为Markdown格式。支持PDF、DOCX、PPTX、XLSX、图片(含OCR识别)、音频(含转录)、HTML、CSV、JSON、XML、ZIP、YouTube链接、EPub电子书等多种格式。

安装

热度:332

下载并解压到你的 skills 目录

复制命令,发送给 OpenClaw 自动安装:

下载并安装这个技能 https://openskills.cc/api/download?slug=k-dense-ai-scientific-skills-markitdown&locale=zh&source=copy

MarkItDown - Microsoft 文档转 Markdown 工具

技能概述


MarkItDown 是 Microsoft 开发的 Python 工具,可将 15+ 种文件格式转换为 LLM 友好的 Markdown 文本,支持 PDF、Office 文档、图片 OCR、音频转录、YouTube 字幕提取等。

适用场景

1. 科研文献整理


将学术论文 PDF 转换为 Markdown 格式,便于 AI 模型理解和处理。支持图片 OCR 识别扫描文档中的图表文字,配合 AI 增强功能可自动生成图片描述,是文献综述和知识库构建的理想工具。

2. 办公文档批量处理


快速将 Word、PPT、Excel 等办公文档转换为结构化 Markdown。支持批量处理多个文件,保留表格、格式和内容结构,适合文档迁移、内容管理和自动化工作流集成。

3. 多媒体内容提取


从图片中提取文字(OCR)、从音频文件生成转录文本、从 YouTube 视频获取字幕内容。支持 AI 增强的图片描述生成,适用于无障碍处理、内容归档和多媒体分析场景。

核心功能

1. 15+ 文件格式支持


覆盖 PDF、DOCX、PPTX、XLSX、图片(JPEG/PNG/GIF/WebP)、音频(WAV/MP3)、HTML、CSV、JSON、XML、ZIP、EPUB 以及 YouTube 视频链接。命令行和 Python API 双模式支持,可灵活集成到各种工作流中。

2. AI 增强的图片描述


通过集成 OpenRouter/OpenAI API,为 PPTX 和图片文件自动生成详细描述。支持多种 AI 模型(如 Claude Opus),特别适合处理包含图表、可视化内容的科学演示文稿和技术文档。

3. OCR 与转录能力


内置图片 OCR 功能,可识别扫描文档和图片中的文字(需安装 tesseract)。支持 WAV、MP3 音频文件的语音转录,以及 YouTube 视频字幕自动提取,将多媒体内容转换为可搜索的文本格式。

常见问题

MarkItDown 支持哪些文件格式?


MarkItDown 支持 15+ 种格式,包括:PDF、DOCX(Word)、PPTX(PowerPoint)、XLSX(Excel)、图片(JPEG/PNG/GIF/WebP,含 OCR)、音频(WAV/MP3,含转录)、HTML、CSV、JSON、XML、ZIP、EPUB 以及 YouTube 视频 URL。可根据需要选择性安装对应格式的依赖包。

如何使用 MarkItDown 转换 PDF 为 Markdown?


基本用法:markitdown document.pdf -o output.md。Python API 用法:
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("document.pdf")
print(result.text_content)

对于复杂 PDF,建议启用 Azure Document Intelligence 以提升转换质量。

MarkItDown 与 Pandoc 有什么区别?


MarkItDown 专注于将各种文件格式转换为 LLM 友好的 Markdown,特别优化了对 AI 模型的 token 效率。它内置 OCR、音频转录和 AI 图片描述功能,开箱即用。Pandoc 则是更通用的文档转换工具,支持更多格式间的相互转换,但不包含 OCR 和 AI 增强功能。两者可配合使用:MarkItDown 负责文件转 Markdown,Pandoc 负责 Markdown 到其他格式的输出。