你是否还在为 PDF 文档中文字乱序、表格错位、排版丢失而头疼?是否厌倦了调用云端 OCR 服务的延迟、费用和隐私风险?LiteParse 是一款专为开发者与数据工程师打造的开源文档解析工具——它不依赖大模型、不上传文件、不联网,仅靠本地 Rust 引擎就能在毫秒内精准提取 PDF 中的文本内容,并原样保留每个字符/段落的位置信息(x/y 坐标 + 宽高),让结构化文档处理真正回归“可控、快速、可嵌入”。
核心功能
- 极速本地解析:基于高性能 Rust 实现,单页 PDF 平均解析耗时 <50ms(实测 A4 文字页),比传统 Python PDF 库快 3–10 倍
- 带空间坐标的文本提取:不仅返回纯文本,更输出每个文本块(paragraph/block/line/word)的精确边界框(bounding box),完美支撑文档重建、区域高亮、表格识别等下游任务
- 零依赖离线运行:无需 GPU、不调用任何远程 API,所有逻辑在本地完成;支持 Windows/macOS/Linux 及 WebAssembly(浏览器端直接解析 PDF)
- 多语言 SDK 全覆盖:提供官方 Rust crate、Python 包(
pip install liteparse)、Node.js 模块(npm)、以及 WASM 版本,轻松集成进各类技术栈 - 专注 PDF 文本层解析:智能跳过扫描图、图像水印等干扰,精准提取原生 PDF 的文本层(Text Layer),兼顾速度与准确性,避免 OCR 过度消耗
- 开箱即用的 CLI 工具:安装后直接运行
liteparse input.pdf --output json即可获得结构化 JSON 输出,含层级、字体、位置、置信度等丰富元数据
适合哪些人用
如果你是以下角色之一,LiteParse 很可能就是你一直在找的“缺失一环”:
• AI 应用开发者:构建 RAG 系统时需高质量文档切片,LiteParse 提供带坐标的语义分块,显著提升 chunk 相关性;
• 自动化办公工程师:批量处理合同、发票、报表 PDF,需按区域提取字段(如“甲方名称”在右上角 2cm 内);
• 隐私敏感型团队:金融、医疗、政务场景下严禁文档外传,必须 100% 本地处理;
• 边缘设备部署者:在树莓派、Jetson 或浏览器中运行轻量解析,资源占用低于 30MB 内存;
• 不想被“黑盒”绑架的极客:源码全开源(Apache-2.0),无隐藏模块,可审计、可定制、可贡献。
快速上手
三步开始使用(任选其一):
✅ Python 用户:执行 pip install liteparse,然后几行代码搞定:from liteparse import parse_pdf
result = parse_pdf("invoice.pdf")
print(result.blocks[0].text, result.blocks[0].bbox)
✅ Node.js 用户:运行 npm install @llamaindex/liteparse,支持 ESM/CommonJS;
✅ 终端党:下载预编译二进制(GitHub Releases 页面),直接命令行解析:liteparse report.pdf --format markdown --output report.md
详细文档与示例请访问:LiteParse 官方文档站
项目信息
run-llama/liteparse
GitHub
A fast, helpful, and open-source document parser
6.9k
今日 +680 stars today
Stars
429
Forks
Rust
Apache-2.0
编程语言:Rust|GitHub Star 数:6946|开源协议:Apache-2.0|GitHub 项目地址
当解析 PDF 不再是“碰运气”,而是像读取 JSON 一样确定、高效、可预测——LiteParse 正在重新定义本地文档理解的基准线。


