PaddleOCR-VL: Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing¶

会议: CVPR 2026
arXiv: 2603.24326
代码: https://github.com/PaddlePaddle/PaddleOCR
领域: 多模态VLM / 文档理解
关键词: 文档解析, 粗到细, 视觉冗余, OCR, 视觉语言模型

一句话总结¶

PaddleOCR-VL 提出粗到细（coarse-to-fine）的文档解析框架，先用轻量 VRFM 模块检测有效区域和阅读顺序，再用紧凑的 0.9B VLM 进行精细识别，以最少的视觉 token 和参数实现了文档解析 SOTA。

研究背景与动机¶

文档解析需要识别文本、公式、表格等元素并确定正确阅读顺序。当前方案分三类：流水线方法（易错误传播）、通用 VLM（幻觉严重、计算昂贵）和专用 VLM（端到端参数量大或坐标漂移）。

核心痛点：高分辨率输入对文档解析至关重要，但视觉编码的计算成本随分辨率二次增长。文档图像的视觉信息高度不均匀——PPT 中有效区域仅占约 39%，即使信息密集的报纸也只占约 60%。

本文切入：既然文档中大量区域是冗余背景，不如先快速定位有效区域，再只对这些区域做精细识别。这种解耦设计让每个模块各司其职，同时大幅减少送入 VLM 的视觉 token 数量。

方法详解¶

整体框架¶

两阶段流水线：粗阶段 VRFM 检测文档元素、分类和预测阅读顺序 → 裁切有效区域 → 细阶段 PaddleOCR-VL-0.9B 对每个区域做精细识别 → 按阅读顺序重组为结构化文档。

关键设计¶

有效区域聚焦模块 (VRFM):
- 功能：高效定位文档中的有效视觉元素并预测阅读顺序
- 核心思路：基于 RT-DETR 检测器进行布局元素检测和分类，在此基础上扩展指针网络（Pointer Network）预测 \(N \times N\) 的阅读顺序矩阵。训练分两阶段：先训 RT-DETR（100 epochs），再冻结核心只训指针网络（200 epochs，使用噪声鲁棒的 Generalized Cross Entropy Loss）
- 设计动机：将区域检测和阅读顺序预测统一在轻量框架中，避免将大量冗余背景送入后续 VLM
PaddleOCR-VL-0.9B 元素识别模型:
- 功能：对裁切出的有效区域做精细的多类型识别（文本/表格/公式/图表）
- 核心思路：采用 NaViT 风格视觉编码器（Keye-VL 初始化）+ 2 层 MLP 投影器 + ERNIE-4.5-0.3B 语言模型（配 3D-RoPE）。关键特点是原生动态分辨率处理，避免固定分辨率或切片带来的失真和幻觉
- 设计动机：0.9B 参数极其紧凑，但因为只处理裁切后的有效区域（而非整个页面），信息密度更高，反而获得更好的识别效果
高质量数据流水线:
- 功能：构建 30M+ 训练样本的多来源数据集
- 核心思路：四来源（开源+合成+网络爬取+内部数据）+ 自动标注（PP-StructureV3 初标 → VLM 精修 → 幻觉过滤）+ 难例挖掘（细粒度评测找弱项 → 合成针对性数据）
- 设计动机：数据质量是性能的关键因素，难例挖掘形成"评测-合成-训练"的闭环

损失函数 / 训练策略¶

VLM 两阶段训练：Stage 1 用 29M 样本做预训练对齐（1 epoch，LR 5e-5→5e-6），Stage 2 用 2.7M 样本做指令微调（2 epochs，更高分辨率上限 2048，LR 5e-6→5e-7）。

实验关键数据¶

主实验¶

方法	参数量	视觉Token	Overall↑	Text↓	Formula↑	Table↑	ReadOrder↓
Gemini-2.5 Pro	-	-	88.03	0.075	85.82	85.71	0.097
Qwen2.5-VL-72B	72B	5626	87.02	0.094	88.27	82.15	0.102
PaddleOCR-VL	0.9B	最少	91.32	0.046	90.98	85.77	0.050

在 OmniDocBench v1.5 上以最少的参数和视觉 token 超越所有方法。

消融实验¶

配置	Overall	说明
端到端 VLM（无 VRFM）	更低	处理全图效率低且效果差
VRFM + PaddleOCR-VL-0.9B	91.32	粗到细策略的完整效果
无难例挖掘	明显下降	数据质量闭环至关重要

关键发现¶

0.9B 模型在所有四个核心指标上超越 72B/241B 的通用 VLM，证明"只看有效区域"比"大模型看全图"更高效
支持 109 种语言，在手写体和历史文档等困难场景也保持鲁棒
推理延迟和吞吐量大幅优于竞争方案

亮点与洞察¶

小而精的设计哲学：通过精准裁切避免 VLM 处理无用像素，0.9B 打败 72B，这说明"喂什么"比"模型多大"更重要
粗细解耦的工程价值：VRFM 和 VLM 可独立优化、独立升级，维护成本低
数据闭环的启示：评测-难例挖掘-合成数据的闭环流程，对所有领域特定 VLM 的训练都有参考价值

局限与展望¶

VRFM 的检测精度对下游识别有连锁影响——漏检区域会直接丢失信息
阅读顺序预测依赖指针网络，对极度复杂的跨页布局可能不够鲁棒
两阶段设计引入额外延迟，虽然总体更快但不如真正的端到端简洁
未来可探索 VRFM 与 VLM 的联合训练或端到端优化

评分¶

新颖性: ⭐⭐⭐⭐ 粗到细思路不新，但文档场景的具体设计很精到
实验充分度: ⭐⭐⭐⭐⭐ 多基准全面对比，覆盖各类文档类型
写作质量: ⭐⭐⭐⭐ 结构清晰，数据详实
价值: ⭐⭐⭐⭐⭐ 开源且性能突出，实际工业应用价值很高