PaddleOCR-VL: Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing¶

会议: CVPR 2026
arXiv: 2603.24326
代码: https://github.com/PaddlePaddle/PaddleOCR
领域: 多模态VLM
关键词: 文档解析, 视觉语言模型, 粗到细处理, 视觉冗余消除, OCR

一句话总结¶

PaddleOCR-VL 提出粗到细的文档解析架构：粗阶段用轻量级有效区域聚焦模块(VRFM)定位文档中的有效视觉区域并预测阅读顺序，细阶段用紧凑的0.9B视觉语言模型对裁剪区域进行精细识别，在最少视觉token和参数下实现文档解析SOTA。

领域现状：文档解析方法分为三类——流水线方法（拼接专家组件）、通用VLM（端到端但重）、专用VLM（统一架构但效率低）。高分辨率输入对文档解析至关重要，但导致视觉token数量二次增长。
现有痛点：通用VLM在手写或复杂文档上频繁产生幻觉和识别错误；专用VLM（如MinerU2-VLM）参数量大、解码序列长导致延迟高；统一压缩视觉token的方法（如DeepSeek-OCR）会损害细粒度布局精度。
核心矛盾：文档图像中有效视觉区域高度不均匀——PPT文档有效区域仅占39%，信息密集型文档约60%。大量背景/装饰区域浪费了计算资源。
本文目标：在保持高分辨率精度的同时消除视觉冗余，实现高精度+高效率。
切入角度：观察到有效视觉区域的稀疏性，用检测器定位有效区域后仅对这些区域做精细识别。
核心 idea：解耦布局分析与元素识别——轻量检测器做粗粒度定位+阅读顺序预测，紧凑VLM对裁剪区域做细粒度识别，避免处理整张大图。

PaddleOCR-VL 分两个阶段：粗阶段(VRFM)接收完整文档图像，输出有效区域的位置、类别和阅读顺序；细阶段(PaddleOCR-VL-0.9B)接收裁剪的有效区域，输出精细识别结果（文本、公式、表格等）。最终按阅读顺序重组为结构化文档。

有效区域聚焦模块 (VRFM):
- 功能：高效定位文档中的有效视觉元素并预测阅读顺序
- 核心思路：基于 RT-DETR 检测器进行布局元素检测和分类，生成区域级表示。在此基础上扩展指针网络(Pointer Network)建模检测区域间的成对关系，预测 \(N \times N\) 矩阵编码相对阅读顺序。整体轻量级，联合完成区域定位、类别预测和阅读顺序估计。
- 设计动机：用任务特定检测器做布局分析比生成式VLM更高效且坐标更准确，指针网络适合序列排序任务
PaddleOCR-VL-0.9B:
- 功能：对裁剪的有效区域进行精细元素识别
- 核心思路：设计紧凑的0.9B参数视觉语言模型。仅处理VRFM裁剪出的有效区域（而非整页），大幅减少视觉token数量。支持文本、公式、表格、图表等多种元素的识别，覆盖109种语言。
- 设计动机：解耦后的识别模块只需处理小区域图像，可用更小模型达到更好效果
高质量数据流水线:
- 功能：构建大规模、多样化的训练数据
- 核心思路：从公开来源和合成数据收集超过3000万个广泛分布的样本。数据多样性覆盖各类文档类型、语言和复杂度，成为模型高性能的关键因素之一。
- 设计动机：数据质量和多样性对VLM性能的影响不亚于模型架构

方法	参数量	视觉Token数	OmniDocBench v1.5 整体
MinerU2-VLM	大	多	次优
Dolphin	大	多	次优
DeepSeek-OCR	中	中(压缩)	次优
PaddleOCR-VL	最少(0.9B)	最少	SOTA