在之前的文章中,我们多次聊过 PDF 文档解析面临的问题,与传统的OCR或基本视觉识别任务不同,文档解析必须应对布局的多样性、分层的视觉层次结构以及多种模态的无缝集成。
而现代文档经常将密集的文本、复杂的表格、数学表达式、嵌入式图形和手写注释结合在一起,通常还混合了多种语言和格式。因此我们不仅必须在细粒度级别上检测和识别内容,还必须重建对下游应用至关重要的底层结构和语义关系。
传统OCR如上就像“拼图游戏”:先拆文字、再拼表格、最后猜关系,一步错步步错。如 MinerU、Marker 等工具采用模块化设计,将文档解析工作流程分解为一系列专门的、细粒度的子任务,包括布局分析、区域分割、文本识别、表格和公式检测以及结构。一些开源的OCR模型可查阅:5款开源模型精准解析数字、文本、表格及公式等内容!
目前端到端的方法,尤其是像 GPT-4o、Qwen2.5-VL、Gemini-2.5 这类模型,直接从原始输入生成结构化表示,在处理 PDF 扫描件时表现亮眼,不仅能提取文字,还能做表格分析、图表解读,甚至回答复杂问题。但最大的问题是模型大、推理缓慢、资源消耗高,一张A4纸可能就要跑好几秒。例如,Qwen2.5-VL-7B的推理速度仅为MinerU的18%。
有没有一种方法,能在精度与效率之间取得平衡?既能准确还原文档结构,又不占用太多算力资源?答案是肯定的!
一、MonkeyOCR:结构-识别-关系,三位一体!
相较于效率我们需要先解决:传统的文档解析系统就像医生看病时“头痛医头,脚痛医脚”的问题。今天介绍的 MonkeyOCR-3B 代表了一种全新的文档解析范式——结构-识别-关系(
Structure-Recognition-Relation, SRR)三元组模型,不仅性能超越 Gemini 2.5 Pro 和 Qwen2.5-VL-72B,而且仅需一块消费级 GPU 即可运行!
在SRR中,将整个文档解析流程拆解为三个清晰步骤:
“它在哪里?”(结构):像“文档版YOLO”,瞬间框出所有内容块:文字、表格、公式、图片,甚至手写注释。单张页面结构检测仅需20ms!
“它是什么?”(识别):有了结构地图后,接下来就是对每个区域进行深度识别。比如文字转文本、表格转JSON、公式变LaTeX,都能被一个3B参数的多模态模型并行处理。
“它是如何组织的?”(关系):重建这些内容块之间的逻辑关系。这份文档是分栏的,哪些文字属于同一段?这个表格属于哪个标题?公式又引用了哪个段落?
二、性能炸裂:轻量、高效、准确!
参数小,性能强
仅 30 亿参数,却在英文文档解析任务上超越了 Gemini 2.5 Pro 和 Qwen2.5-VL-72B。在公式识别方面提升高达 +15.0%,表格识别提升 +8.6%。
推理快,部署易
支持在 NVIDIA RTX 3090 / 4090 上运行,显存占用低于 24GB;且多页文档处理速度达每秒 0.84 页,远超 MinerU(0.65 页/秒)和 Qwen2.5-VL-7B(0.12 页/秒);
输出结构化,便于下游应用
解析结果可直接生成 Markdown 或 JSON 格式。表格结构化输出,支持下游自动提取与分析。
三、全面开源,方便易用!
MonkeyOCR 像个智慧的“文档编辑”,把碎片化的信息重新组织成一份条理清晰、逻辑完整的结构化文档。并且GitHub/Hugging Face全开源:代码、模型权重、训练数据集全部公开。开箱即用:支持命令行工具和Web Demo,5分钟搞定安装。
这种“搭积木”式的设计,不仅简化了传统流程的复杂性,更避免了直接让大模型去直接处理整页文档时造成的计算浪费和效率低下。开源链接如下:
# 论文链接:
https://arxiv.org/pdf/2506.05218
# 代码链接:
https://Yuliang-Liu/MonkeyOCR
# 在线演示:
http://vlrlabmonkey.xyz:7685
最后,如果你在构建文档问答、知识抽取、智能审核等相关应用时遇到文档解析的难题,或者你关注LLM大模型处理数据相关内容,欢迎留言或进群交流,我们一起探讨文档智能的更多可能性!
PDF文档解析 · 文章推荐
为什么它是从PDF中解析数据的最佳工具?构建LLM 大模型数据基础
迈向OCR-2.0新时代:通过统一的端到端模型,实现文本、数学公式、表格、图表及乐谱等内容的精确处理,同时支持场景和文档风格等
IBM开源一站式文档解析工具!轻松解析PDF、PPT、图片及网页
顶配版OCR工具!支持任何语言、任意表格、图表与文档的文本检测和识别工具