PaddleOCR 是百度飞桨(PaddlePaddle)团队打造的工业级开源 OCR(光学字符识别)与文档智能解析工具箱。它能将扫描版 PDF、手机拍照、网页截图等任意图像类文档,精准转换为可编辑、可搜索、可编程的结构化文本(如 Markdown、JSON、Excel),彻底告别手动抄录和低效复制。尤其针对中文文档优化,在复杂版式、模糊手写、印章遮挡等真实场景中表现远超同类工具,已成为国内政务、金融、教育、科研等领域文档数字化的事实标准。
核心功能
- 百语支持,中文首选:原生支持简体/繁体中文、英文、日文、韩文、阿拉伯文等 100+ 语言,其中中文识别模型经千万级中文文档训练,印刷体准确率超 98.5%,对小字号、倾斜、低分辨率图片鲁棒性强。
- 端到端文档理解:不止于“认字”,还能自动识别标题、段落、表格、公式、页眉页脚等逻辑结构,输出带层级关系的 HTML 或 Markdown,让 PDF 真正变成“活文档”。
- PDF 智能解析引擎:内置高性能 PDF 解析器,兼容扫描件(OCR PDF)与文本型 PDF,支持批量处理、多线程加速,并可直接导出为纯文本、Markdown、Excel 表格或 JSON 结构化数据。
- 轻量部署,全平台兼容:提供 CPU / GPU / 国产化硬件(昇腾 NPU、昆仑 XPU)多后端支持;最小安装仅需 3 行命令,单机即可运行;也支持 Docker、PaddleServing 高并发服务部署。
- 开箱即用的 RAG 基础设施:输出结果天然适配大模型应用——支持一键生成向量库、自动切片、保留原文上下文,是构建企业级知识库、智能客服、合同审查等 AI 应用的理想文档预处理器。
- 零代码在线体验 + 丰富示例:官网提供免安装 Web Demo,上传即识别;GitHub 内置 50+ 中文实战案例(含发票识别、身份证提取、论文解析、古籍断句),覆盖 90% 日常需求。
适合哪些人用
如果你是以下角色之一,PaddleOCR 将极大提升你的工作效率:
• 科研人员与学生:快速提取论文图表、参考文献、实验数据,批量转 Markdown 整理笔记;
• 行政/法务/财务人员:自动识别合同、发票、营业执照、银行回单中的关键字段,减少人工录入错误;
• 开发者与 AI 工程师:作为 RAG、智能文档分析系统的“眼睛”,无缝对接 LangChain、LlamaIndex 等框架;
• 中小企业与政务单位:低成本实现老旧档案数字化、办事材料智能预审、公文格式自动校验;
• 教育工作者:将教材、试卷、板书照片秒变可编辑电子讲义,支持双语对照导出。
快速上手
无需配置环境,5 分钟完成首次识别:
- 安装(推荐 pip):
pip install paddleocr(Python 3.8–3.12,Windows/macOS/Linux 全支持) - 一行代码识别本地图片:
from paddleocr import PaddleOCR; ocr = PaddleOCR(use_angle_cls=True, lang="ch"); result = ocr.ocr("invoice.jpg", cls=True) - 解析 PDF 文档:
ocr = PaddleOCR(use_pdf=True); result = ocr.ocr("report.pdf"),结果自动包含文本坐标、置信度、段落类型 - 导出为 Markdown:
paddleocr.tools.convert_pdf_to_markdown("report.pdf", output_dir="./output") - 进阶用户可访问 部署指南,5 分钟搭建 Web API 服务。
项目信息
PaddlePaddle/PaddleOCR
GitHub
Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs
73.8k
今日 +440 stars today
Stars
10.1k
Forks
Python
Apache-2.0
编程语言:Python|GitHub Star 数:73,850+|开源协议:Apache-2.0|GitHub 项目地址
国产 OCR 的“天花板”级开源项目——不依赖云 API、不上传隐私文档、中文场景深度打磨、社区活跃度常年稳居全球 OCR 类库前三,是你构建文档智能能力最值得信赖的“地基”。





