轻量级 PDF 文本解析神器：本地运行、毫秒级提取、带坐标框的纯 Rust 解析器

昆仑开源易选

2026-05-29 0 61

你是否还在为 PDF 文档中文字乱序、表格错位、排版丢失而头疼？是否厌倦了调用云端 OCR 服务的延迟、费用和隐私风险？LiteParse 是一款专为开发者与数据工程师打造的开源文档解析工具——它不依赖大模型、不上传文件、不联网，仅靠本地 Rust 引擎就能在毫秒内精准提取 PDF 中的文本内容，并原样保留每个字符/段落的位置信息（x/y 坐标 + 宽高），让结构化文档处理真正回归“可控、快速、可嵌入”。

核心功能

极速本地解析：基于高性能 Rust 实现，单页 PDF 平均解析耗时 <50ms（实测 A4 文字页），比传统 Python PDF 库快 3–10 倍
带空间坐标的文本提取：不仅返回纯文本，更输出每个文本块（paragraph/block/line/word）的精确边界框（bounding box），完美支撑文档重建、区域高亮、表格识别等下游任务
零依赖离线运行：无需 GPU、不调用任何远程 API，所有逻辑在本地完成；支持 Windows/macOS/Linux 及 WebAssembly（浏览器端直接解析 PDF）
多语言 SDK 全覆盖：提供官方 Rust crate、Python 包（pip install liteparse）、Node.js 模块（npm）、以及 WASM 版本，轻松集成进各类技术栈
专注 PDF 文本层解析：智能跳过扫描图、图像水印等干扰，精准提取原生 PDF 的文本层（Text Layer），兼顾速度与准确性，避免 OCR 过度消耗
开箱即用的 CLI 工具：安装后直接运行 liteparse input.pdf --output json 即可获得结构化 JSON 输出，含层级、字体、位置、置信度等丰富元数据

适合哪些人用

如果你是以下角色之一，LiteParse 很可能就是你一直在找的“缺失一环”：
• AI 应用开发者：构建 RAG 系统时需高质量文档切片，LiteParse 提供带坐标的语义分块，显著提升 chunk 相关性；
• 自动化办公工程师：批量处理合同、发票、报表 PDF，需按区域提取字段（如“甲方名称”在右上角 2cm 内）；
• 隐私敏感型团队：金融、医疗、政务场景下严禁文档外传，必须 100% 本地处理；
• 边缘设备部署者：在树莓派、Jetson 或浏览器中运行轻量解析，资源占用低于 30MB 内存；
• 不想被“黑盒”绑架的极客：源码全开源（Apache-2.0），无隐藏模块，可审计、可定制、可贡献。

快速上手

三步开始使用（任选其一）：
✅ Python 用户：执行 pip install liteparse，然后几行代码搞定：
from liteparse import parse_pdf result = parse_pdf("invoice.pdf") print(result.blocks[0].text, result.blocks[0].bbox)
✅ Node.js 用户：运行 npm install @llamaindex/liteparse，支持 ESM/CommonJS；
✅ 终端党：下载预编译二进制（GitHub Releases 页面），直接命令行解析：
liteparse report.pdf --format markdown --output report.md
详细文档与示例请访问：LiteParse 官方文档站