你是否曾为一份扫描的合同、手写的实验记录或带复杂表格的财报发愁?传统 OCR 工具只能输出乱序文字,丢失结构、错位表格、忽略勾选框,更别提数学公式和多语言混排。Chandra OCR 2 正是为此而生——它不是简单的“文字识别器”,而是一个真正理解文档语义与视觉布局的 AI 文档智能引擎,能将图片、PDF 精准还原为带完整层级、样式和逻辑关系的 HTML、Markdown 或结构化 JSON。
核心功能
- 全要素布局还原:不止识别文字,还能精确重建段落、标题、页眉页脚、边栏、浮动图注等视觉结构,让转换结果真正“所见即所得”
- 复杂表格零失真解析:自动识别合并单元格、跨页表格、嵌套表格及表头关联,输出语义清晰的 HTML table 或带行列关系的 JSON 数据
- 手写体+印刷体混合识别:专为真实办公场景优化,在发票批注、问卷填写、科研笔记等含手写内容的文档中保持高准确率
- 数学公式与符号原生支持:精准识别 LaTeX 风格公式、上下标、积分求和符号,并输出可编辑的 MathML 或 Markdown 内联公式
- 90+语言无缝切换:覆盖中文(简繁体)、日文、韩文、阿拉伯文、梵文等主流及小语种,支持同一文档内多语言自动检测与混排解析
- 表单与交互元素智能重建:准确识别复选框、单选按钮、签名栏、下划线填空区,并在 HTML 输出中标记为语义化表单控件
适合哪些人用
Chandra OCR 2 是面向真实工作流的生产力工具:法律从业者可一键提取合同关键条款并结构化入库;财务人员能自动解析银行回单、报销单中的金额、日期与印章位置;教育工作者可将手写习题册转为可搜索、可编辑的数字题库;科研人员能批量处理含公式的论文图表与实验数据表格;开发者更可将其集成进文档管理系统、知识库或 RAG 应用,作为高质量文本与结构数据的源头引擎。
快速上手
无需 GPU,轻量部署:仅需 Python 3.9+,一行命令安装
pip install chandra-ocr
三行代码完成 PDF 解析(输出为 Markdown):
from chandra import Chandra
model = Chandra()
result = model.convert("invoice.pdf", output_format="markdown")
print(result)
支持命令行快速转换:chandra-ocr input.pdf --output report.html --layout。也提供 Docker 镜像与 REST API 部署方案,适配私有化和企业级集成需求。
项目信息
OCR model that handles complex tables, forms, handwriting with full layout.
7.7k
今日 +687 stars today
Stars
770
Forks
Python
Apache-2.0
编程语言:Python|GitHub Star 数:7722|开源协议:Apache-2.0|GitHub 项目地址
如果你厌倦了用 Ctrl+F 在 PDF 里“盲找”关键信息,又不想为文档数字化反复手动调整格式——Chandra OCR 2 就是你等待已久的那个“真正看懂文档”的 AI 助手。





