你是否曾为让大模型“看懂”一份带图表、表格、页眉页脚的PDF报告而反复调试提示词?是否在构建RAG知识库时,被扫描版PDF识别不准、Office文档格式错乱、多级标题丢失等问题卡住数小时?MinerU正是为此而生——它不是简单的OCR工具,而是一个专为AI工作流深度优化的智能文档解析器,能把复杂排版的PDF、Word(.docx)、Excel(.xlsx)、PPT(.pptx)等文件,自动还原逻辑结构,精准提取文字、表格、图像、公式与层级关系,输出为干净、语义清晰、可直接喂给大模型的Markdown或JSON格式。
核心功能
- 高精度版面分析:内置自研Layout模型,准确识别标题、正文、图注、表格、页眉页脚、侧边栏等区域,不依赖传统规则,对学术论文、财报、技术手册等复杂排版鲁棒性强
- 多格式原生支持:无需手动转换,直接解析PDF(含扫描件+OCR)、.docx、.xlsx、.pptx,甚至支持双栏、多栏、嵌套表格等“反人类”排版
- 结构化内容提取:不仅提取文字,还能保留层级标题(H1-H3)、段落归属、表格行列结构、图片位置及描述,输出严格遵循语义逻辑的Markdown/JSON
- LLM友好输出设计:生成结果自动添加章节锚点、表格转Markdown语法、数学公式保留LaTeX格式,开箱即用于RAG检索、Agent记忆构建或微调数据准备
- 轻量易集成:提供简洁Python API与命令行工具,支持批量处理、自定义输出字段、保留原始坐标信息供二次开发,非黑盒,可调试、可扩展
- 中文场景深度优化:针对中英文混排、简体繁体兼容、中文OCR增强、PDF字体缺失等本土常见问题专项调优,实测在中文技术文档、政策文件、医疗报告上效果领先
适合哪些人用
如果你是以下角色,MinerU将极大提升你的AI工程效率:RAG应用开发者——告别杂乱PDF导致的检索漂移;大模型Agent工程师——让Agent真正“读懂”用户上传的合同、说明书或研究报告;科研工作者与数据分析师——快速将上百篇论文PDF转化为结构化知识图谱输入;企业知识库建设者——自动化清洗内部文档,统一注入向量数据库;低代码AI平台搭建者——作为后台文档预处理模块,为终端用户提供“上传即可用”的智能问答体验。
快速上手
只需两步即可开始使用:
- 安装:运行
pip install mineru(支持Python 3.9+,自动安装PyTorch/CUDA环境) - 一行代码解析:例如处理PDF:
mineru --input report.pdf --output result.md --format markdown;也可通过Python API调用:from mineru import parse; result = parse("report.pdf", output_format="json")
官方提供在线Web Demo(mineru.net),无需配置即可上传测试;完整文档、示例数据集及Docker部署指南均在GitHub仓库中开源。
项目信息
opendatalab/MinerU
GitHub
Transforms complex documents like PDFs and Office docs into LLM-ready markdown/JSON for your Agentic workflows.
70.4k
今日 +960 stars today
Stars
5.9k
Forks
Python
NOASSERTION
编程语言:Python|GitHub Star 数:70,446|开源协议:未明确声明(NOASSERTION)|GitHub 项目地址
这不是又一个“能跑就行”的文档工具,而是由OpenDataLab团队打磨出的、已在真实AI产品中日均处理百万页文档的工业级解析引擎——当你需要让大模型真正理解人类文档的“意义”,而非仅仅看到“字符”,MinerU就是那个沉默却可靠的翻译官。



