还在为把会议纪要、产品文档、合同扫描件喂给大模型而头疼?MarkItDown 是微软开源的轻量级 Python 工具,专为 AI 时代设计——它能把 Word、Excel、PPT、PDF、甚至 Outlook 邮件等数十种办公文件,高保真、结构化地转换成干净易读的 Markdown 格式。告别手动复制粘贴、格式错乱和 OCR 失败,让原始文档真正成为 LLM 可理解、可检索、可推理的高质量上下文。
核心功能
- 全格式覆盖:原生支持 .docx、.xlsx、.pptx、.pdf(含扫描件 OCR)、.eml、.msg、.html、.txt 等 15+ 种常见文档类型,连 OneNote 笔记也能解析
- 语义化结构保留:自动识别标题层级、列表、表格、代码块、图片占位符和超链接,转换后的 Markdown 不仅“能用”,更“好读、好调”
- 零临时文件,流式处理:全新 v0.1+ 架构直接读取二进制流(如 BytesIO),不生成中间临时文件,更安全、更高效,特别适合 Web 服务或隐私敏感场景
- 开箱即用的 CLI + 编程 API:一条命令就能批量转换整个文件夹;Python 开发者也可轻松集成到 LangChain、LlamaIndex 或自研 RAG 流程中
- 深度对接 AI 生态:内置 MCP(Model Context Protocol)服务器,开箱支持 Claude Desktop、Cursor 等新一代 AI 编程工具,让本地文档秒变智能助手的知识源
- 模块化依赖,按需安装:PDF 解析、Office 支持、OCR 引擎等能力拆分为可选插件组(如
[pdf]、[office]、[ocr]),避免臃肿,节省资源
适合哪些人用
这款工具不是给极客看的玩具,而是真正解决现实痛点的生产力杠杆:AI 应用开发者用它快速构建企业知识库的文档预处理流水线;技术写作与产品经理将需求文档、PRD 自动同步为 Git 友好的 Markdown;科研人员与学生把论文 PDF、实验报告一键转为可标注、可引用的结构化笔记;数字化办公团队批量归档历史邮件、会议记录,接入内部 ChatBI 或智能客服系统——只要你的工作流里有“文档 → AI”的环节,MarkItDown 就是那个沉默却关键的翻译官。
快速上手
安装只需一行命令(推荐安装全功能版):pip install "markitdown[all]"
转换单个文件:markitdown input.docx -o output.md
批量处理整个文件夹(含子目录):markitdown ./docs/ --recursive --output-dir ./md-output/
Python 中调用更灵活:from markitdown import MarkItDown
m = MarkItDown()
result = m.convert("report.pdf")
print(result.text)
项目信息
Python tool for converting files and office documents to Markdown.
99.2k
今日 +2,353 stars today
Stars
6.1k
Forks
Python
MIT
编程语言:Python|GitHub Star 数:99,180|开源协议:MIT|GitHub 项目地址
这是微软 AutoGen 团队出品、已被全球数千个 RAG 和智能办公项目验证的工业级工具——不是概念 Demo,而是每天在真实生产环境中默默处理 TB 级文档的可靠伙伴。


