DocoPilot: Improving Multimodal Models for Document-Level Understanding¶

会议: CVPR 2025
arXiv: 2507.14675
代码: https://github.com/OpenGVLab/Docopilot
领域: 多模态VLM
关键词: 文档理解、长上下文、多模态数据集、原生文档模型、多页推理

一句话总结¶

本文构建了 Doc-750K——一个包含 758K 问答对和 3.1M 图像的高质量文档级多模态数据集，并基于此训练原生文档理解模型 Docopilot，在 MM-NIAH 上超越 InternVL2-8B 达 19.9 个百分点，无需 RAG 即可高效处理多页文档。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）在图像级任务（如 OCR、VQA、图像描述）上取得了显著进展，但在文档级理解——即跨多页提取、整合关键信息——方面仍然表现不佳。现有开源 MLLM 主要在图像级数据上训练，缺乏长上下文处理能力。

现有痛点：检索增强生成（RAG）是当前主流的长文档处理方案，但存在三个核心问题：(1) 检索碎片化——检索到的信息缺乏文档整体结构；(2) 多阶段误差累积——错误检索会传播到后续回答；(3) 额外时间开销——检索步骤增加了响应延迟，限制了实时交互能力。

核心矛盾：高质量的文档级多模态数据集极度稀缺（标注成本高、构建流程缺失），而没有好的训练数据，就无法训练出原生的长上下文文档理解模型，只能依赖有缺陷的 RAG。

本文目标 (1) 如何高效构建大规模高质量的文档级多模态训练数据？ (2) 如何在不依赖 RAG 的情况下训练原生的文档级 MLLM？

切入角度：作者利用学术论文的结构化特性（论文有标题、摘要、实验节等明确结构），设计了一套自动化数据构建流水线，从 Sci-Hub、arXiv、OpenReview 等来源提取真实的问答对，避免了人工标注的高成本。

核心 idea：通过构建大规模高质量文档级数据集 Doc-750K，结合工程优化（多模态数据打包 + Ring Attention + Liger Kernel）训练原生文档 MLLM，在文档理解任务上同时超越 RAG 方法的准确性和效率。

方法详解¶

整体框架¶

整个系统包含两大部分：(1) 数据引擎——从原始文档到训练数据的自动化流水线；(2) 模型训练——基于 ViT-MLP-LLM 架构，通过工程优化实现长上下文文档的高效训练和推理。模型输入为文档内容（交错文本-图像或多图格式）+ 问题，输出为答案。

关键设计¶

数据引擎与 Doc-750K 数据集:
- 功能：自动化构建大规模文档级问答训练数据
- 核心思路：数据引擎分三步工作。第一步，从 Sci-Hub、arXiv、OpenReview 收集原始文档（PDF/HTML）。第二步，文档内容提取——将每篇文档处理为两种格式：交错文本-图像格式（使用 MinerU 工具提取，如 <text>\n<image>\n<text>）和多图格式（每页渲染为一张图像）。第三步，问答对构建——对 OpenReview 论文直接提取真实的审稿问答；对结构化论文设计 5 种代理任务（摘要撰写、标题生成、表格/图片描述、实验节撰写、翻译）；对其他文档使用 GPT-4o 生成 QA 对（仅占 4.8%）。最终数据集包含 758K 问题、3.1M 图像、251K 对话，其中 31.6% 为真实问答对
- 设计动机：利用学术论文天然的层级结构，无需人工标注就能构建高质量、多样化的文档级 QA 数据。真实 QA（如审稿问答）确保了数据质量，代理任务（如根据正文写摘要）天然要求模型理解全文跨页信息
训练效率优化三件套:
- 功能：解决长文档训练中的 GPU 显存瓶颈和训练效率问题
- 核心思路：(a) 多模态数据打包——用优先队列将多个短样本拼接为长序列，设置图像数阈值 \(T_{img}\) 和 token 数阈值 \(T_{tok}\)，最大化 GPU 利用率，避免 padding 浪费。(b) Ring Attention——将长序列分块分配到多个 GPU 上，通过重叠通信与注意力计算来突破单设备显存限制。(c) Liger Kernel——通过内核融合、原地操作、输入分块等技术进一步降低显存消耗并提升训练吞吐量
- 设计动机：文档级输入的 token 数量远超常规图像级输入（平均 11,245 文本 token + 6,178 图像 token），不做优化则无法在现有硬件上训练
SFT 数据配方:
- 功能：防止模型在文档领域过拟合，保持通用能力
- 核心思路：将 Doc-750K 与其他开源数据集混合，覆盖四类场景：多页文档 QA（核心，含 MP-DocVQA、DUDE 等）、多图通用 QA（MMDU-45K）、单页文档 QA（DocVQA、ChartQA 等）、纯文本 QA（LongAlpaca、LongCite 等）
- 设计动机：仅用 Doc-750K 训练会导致模型过度特化于学术论文场景，混合多源数据可提升模型在不同文档类型上的鲁棒性

损失函数 / 训练策略¶

标准的 next-token prediction 和对话式 SFT 训练。使用 ViT-MLP-LLM 架构（基于 InternVL），Visual Transformer 编码图像，两层 MLP 做投射对齐，预训练 LLM 生成答案。

实验关键数据¶

主实验¶

模型	MM-NIAH Overall	MP-Doc ANSL↑	MMLong-Doc Acc↑	DocGenome SP Acc↑
InternVL2-8B	41.9	79.5	18.6	60.3
InternVL2-26B	48.4	-	-	-
Docopilot-2B	49.2	76.2	21.8	45.1
Docopilot-8B	61.8	84.5	31.4	66.2
GPT-4o	-	-	42.8	71.8

Docopilot-8B 在 MM-NIAH 上超越 InternVL2-8B +19.9 点，超越 InternVL2-26B 且推理延迟仅为后者的 31%。Docopilot-2B 以 <10% 的参数量就达到了与 InternVL2-26B 可比的性能。

消融实验¶

配置	MM-NIAH Overall	说明
InternVL2-8B baseline	41.9	无文档级训练
+ Doc-750K only	~55	文档数据显著提升
+ SFT 混合数据	61.8	混合训练进一步提升
InternVL2-8B + RAG	51.0	RAG 提升有限且增加延迟

关键发现¶

原生长上下文训练远优于 RAG：Docopilot 不仅准确率更高，推理延迟也大幅降低（无需检索步骤），尤其在多轮交互中优势明显
数据质量 > 数据量：Doc-750K 中 31.6% 的真实 QA 对是性能提升的关键，纯合成数据效果有限
小模型也能做好文档理解：2B 模型通过高质量文档数据训练就能达到 26B 模型的水平，说明训练数据对文档理解能力的重要性大于模型规模
多模态数据打包显著提升训练效率，使得在消费级 GPU（RTX 4090 x2 级别）上就能完成文档级 MLLM 的训练

亮点与洞察¶

数据引擎设计巧妙：利用学术论文的天然结构（标题→摘要→实验→图表说明）设计代理任务，让模型在回答这些任务时自然学会跨页信息整合。这种"结构即监督"的思路可迁移到法律文档、医疗报告等其他结构化文档领域
工程优化三件套的组合使得长文档训练从不可行变为可行，且这套方案完全可复用于其他需要长上下文训练的多模态任务
OpenReview 审稿数据的利用：直接将真实的审稿问答作为训练数据，既保证了问题的深度和多样性，又是零标注成本的高质量数据来源

局限与展望¶

数据偏向学术论文：Doc-750K 主要来自 Sci-Hub/arXiv/OpenReview，对商业文档（合同、财报）、法律文件、多语言文档的覆盖不足
基准测试局限：MM-NIAH 等基准主要测试"大海捞针"式的信息检索能力，对复杂推理（如跨页因果推理、多步计算）的评估尚不充分
GPT-4o 生成的 QA 可能存在幻觉：虽然仅占 4.8%，但这部分数据的质量没有人工验证
模型架构无创新：直接沿用 ViT-MLP-LLM 架构，主要贡献在数据和训练策略层面

评分¶

新颖性: ⭐⭐⭐ 方法本身无架构创新，核心贡献在数据集和工程优化
实验充分度: ⭐⭐⭐⭐ 在多个文档级基准上全面评测，并与 RAG 方法做了公平对比
写作质量: ⭐⭐⭐⭐ 数据引擎描述清晰，流水线可复现
价值: ⭐⭐⭐⭐⭐ 首个大规模高质量文档级多模态数据集，填补了行业空白，对社区价值极高