MarkItDown

MarkItDown - Microsoft 文档转 Markdown 工具

技能概述

MarkItDown 是 Microsoft 开发的 Python 工具，可将 15+ 种文件格式转换为 LLM 友好的 Markdown 文本，支持 PDF、Office 文档、图片 OCR、音频转录、YouTube 字幕提取等。

适用场景

1. 科研文献整理

将学术论文 PDF 转换为 Markdown 格式，便于 AI 模型理解和处理。支持图片 OCR 识别扫描文档中的图表文字，配合 AI 增强功能可自动生成图片描述，是文献综述和知识库构建的理想工具。

2. 办公文档批量处理

快速将 Word、PPT、Excel 等办公文档转换为结构化 Markdown。支持批量处理多个文件，保留表格、格式和内容结构，适合文档迁移、内容管理和自动化工作流集成。

3. 多媒体内容提取

从图片中提取文字（OCR）、从音频文件生成转录文本、从 YouTube 视频获取字幕内容。支持 AI 增强的图片描述生成，适用于无障碍处理、内容归档和多媒体分析场景。

核心功能

1. 15+ 文件格式支持

覆盖 PDF、DOCX、PPTX、XLSX、图片（JPEG/PNG/GIF/WebP）、音频（WAV/MP3）、HTML、CSV、JSON、XML、ZIP、EPUB 以及 YouTube 视频链接。命令行和 Python API 双模式支持，可灵活集成到各种工作流中。

2. AI 增强的图片描述

通过集成 OpenRouter/OpenAI API，为 PPTX 和图片文件自动生成详细描述。支持多种 AI 模型（如 Claude Opus），特别适合处理包含图表、可视化内容的科学演示文稿和技术文档。

3. OCR 与转录能力

内置图片 OCR 功能，可识别扫描文档和图片中的文字（需安装 tesseract）。支持 WAV、MP3 音频文件的语音转录，以及 YouTube 视频字幕自动提取，将多媒体内容转换为可搜索的文本格式。

常见问题

MarkItDown 支持哪些文件格式？

MarkItDown 支持 15+ 种格式，包括：PDF、DOCX（Word）、PPTX（PowerPoint）、XLSX（Excel）、图片（JPEG/PNG/GIF/WebP，含 OCR）、音频（WAV/MP3，含转录）、HTML、CSV、JSON、XML、ZIP、EPUB 以及 YouTube 视频 URL。可根据需要选择性安装对应格式的依赖包。

如何使用 MarkItDown 转换 PDF 为 Markdown？

基本用法：markitdown document.pdf -o output.md。Python API 用法：

from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("document.pdf")
print(result.text_content)

对于复杂 PDF，建议启用 Azure Document Intelligence 以提升转换质量。

MarkItDown 与 Pandoc 有什么区别？

MarkItDown 专注于将各种文件格式转换为 LLM 友好的 Markdown，特别优化了对 AI 模型的 token 效率。它内置 OCR、音频转录和 AI 图片描述功能，开箱即用。Pandoc 则是更通用的文档转换工具，支持更多格式间的相互转换，但不包含 OCR 和 AI 增强功能。两者可配合使用：MarkItDown 负责文件转 Markdown，Pandoc 负责 Markdown 到其他格式的输出。

作者

分类

安装