PaddleOCR-VL: Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing¶

会议: CVPR 2026
arXiv: 2603.24326
代码: https://github.com/PaddlePaddle/PaddleOCR
领域: 多模态VLM / 文档理解
关键词: 文档解析, 粗到精视觉处理, 视觉语言模型, OCR, 视觉token压缩

一句话总结¶

提出 PaddleOCR-VL 粗到精文档解析框架：粗阶段用轻量 VRFM 模块识别有效视觉区域，精阶段用紧凑 0.9B VLM 仅处理有效区域，以最少视觉 token 和参数在 OmniDocBench v1.5 上实现 SOTA，大幅降低延迟和资源消耗。

领域现状：文档解析是构建 LLM 训练语料和 RAG 系统的关键技术。高分辨率输入对文档解析至关重要但导致视觉 token 数量二次增长。
现有痛点：流水线方法（检测+识别+结构重建）容易错误传播；通用 VLM 在手写或高度结构化文档上产生幻觉；专用 VLM 参数量大或受坐标漂移影响。
核心矛盾：高分辨率对细节识别必要 → 视觉 token 数量暴增 → 计算成本高。但文档中有效信息分布极不均匀——PPT 仅 ~39% 区域有效，报纸约 ~60%。
本文目标：在保持高分辨率精度的同时消除视觉冗余，提高效率。
切入角度：有效视觉区域的稀疏性——大量背景和装饰元素不包含有用信息。
核心 idea：粗阶段快速识别有效区域（定位+上下文关系预测），精阶段仅处理这些区域。

两阶段：(1) 粗阶段——VRFM（有效区域聚焦模块）快速定位文档元素（文本、公式、表格等）；(2) 精阶段——PaddleOCR-VL-0.9B 对提取的有效区域进行详细识别。两阶段解耦允许独立优化。

VRFM（有效区域聚焦模块）:
- 功能：快速定位文档中的语义有效区域
- 核心思路：轻量级检测器，同时预测区域位置和区域间的上下文关系（阅读顺序）。相比通用目标检测器，VRFM 针对文档元素优化，速度更快、精度更高。
- 设计动机：标准 VLM 直接处理整页图像浪费了大量计算在背景区域上。先定位再识别可以大幅减少精阶段的输入量。
PaddleOCR-VL-0.9B:
- 功能：对有效视觉区域进行详细的文本/公式/表格识别
- 核心思路：仅 0.9B 参数的紧凑 VLM，由 VRFM 输出引导，只处理裁剪后的有效区域而非整页大图。通过高质量数据流水线（3000 万+样本）弥补模型规模的不足。
- 设计动机：小模型 + 精确输入 > 大模型 + 粗粒度输入。0.9B 的规模使得边缘部署成为可能。
大规模高质量数据流水线:
- 功能：为小模型提供足够的训练信号
- 核心思路：从公开数据源和合成数据中收集超过 3000 万个广泛分布的样本，成为模型性能的关键因素之一。
- 设计动机：小模型的数据效率更低，需要更多高质量数据补偿。

VRFM: 标准检测损失 + 阅读顺序预测损失。VLM: 标准语言建模损失。

指标	PaddleOCR-VL	GOT-OCR	Qwen2.5-VL-7B	InternVL3
文本分数	SOTA	次优	第三	第四
公式分数	SOTA	次优	第三	第四
表格分数	SOTA	次优	第三	第四
阅读顺序	SOTA	次优	第三	第四
视觉token数	最少	较多	多	最多
参数量	0.9B	更大	7B	更大