Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering¶

会议: NeurIPS 2025
arXiv: 2505.16470
代码: https://github.com/MMDocRAG/MMDocRAG
领域: 多模态VLM / 文档问答 / 检索增强生成
关键词: DocRAG, 多模态问答, Quote Selection, 交错图文生成, Benchmark

一句话总结¶

提出 MMDocRAG 基准（4055 个专家标注的 QA 对），系统评估了 60 个 VLM/LLM 和 14 个检索器在多模态文档检索增强生成中的引用选择和交错图文回答能力，揭示当前最强模型 GPT-4.1 的 Quote Selection F1 仅 70.2%，微调可显著提升性能。

背景与动机¶

文档视觉问答（DocVQA）需要在包含文字、图表、表格等多模态内容的长文档中定位证据并进行跨模态推理。现有的文档 RAG（DocRAG）方法存在两个核心局限：（1）单模态偏见——生成的答案严重依赖纯文本，忽略了图表、表格等视觉信息，而多模态内容对用户理解至关重要；（2）评估缺失——现有基准仅评估检索到的引用的召回率或文本答案质量，没有基准能评估模型从噪声引用中选择相关多模态证据的能力，也无法评估模型将多模态内容与文本整合成连贯答案的能力。这两个缺口严重阻碍了多模态 RAG 系统的发展。

核心问题¶

如何系统地评估模型在文档级 RAG 场景中的多模态证据选择与交错图文生成能力？具体来说，给定问题和一组包含 gold 和噪声的候选引用（文本+图片），模型能否（1）正确选出相关证据，（2）生成融合文本与图像的高质量连贯回答？这是第一个聚焦于多模态交错生成评估的 DocVQA/DocRAG 基准。

方法详解¶

整体框架¶

MMDocRAG 的核心是一个四阶段标注流水线和一套完整的任务—评估框架：

输入：用户问题 + 文档语料库（含文本引用 T 和图像引用 I）
阶段一：多模态检索——从文档中检索 top-k 相关引用
阶段二：引用选择与多模态生成——给定固定的候选引用集（15 或 20 条，含 gold 和噪声），模型需筛选相关证据并生成交错图文回答
输出：包含文本和图像引用的多模态答案

关键设计¶

四阶段标注流水线：
文档解析与证据选择：使用 MinerU（基于 LayoutLMv3）进行版面检测，将文档切分为内容感知的 chunk（"quote"），文本引用以文本存储，图像引用同时存储原图、OCR-text 和 VLM-text 三种格式
多模态答案生成：筛选 943 个已有问题 + 新标注 3349 个问题（8 种问题类型：描述/比较/程序/解释/因果/分析/推理/应用），由 VLM 生成图文交错的初始答案，人工修订
Gold 引用标注：用稠密检索器检索 top-20 相关文本引用，由 LLM 选择并在答案中插入引用标记，专家验证
Hard Negative 增强：用检索到的高相似度但无关引用作为噪声，构造含 15（5 图+10 文）或 20（8 图+12 文）条引用的候选集，gold 引用仅占 13.5%~18.0%
创新评估框架：
Quote Selection 指标：对文本和图像引用分别计算 Precision/Recall/F1，取平均作为整体 F1
Surface-level 相似度：BLEU 和 ROUGE-L
LLM-as-Judge：从流畅性、引用质量、图文连贯性、推理逻辑、事实准确性五个维度评分（0-5）
质量保障：
半自动验证：VLM 检查视觉内容连贯性，LLM 检查文本准确性，保留率 90.2%（答案）和 93.5%（gold 引用）
人工交叉验证：两组标注者互相验证，Quote Selection F1 达 89.7/91.4，答案质量 4.23/4.17

数据集统计¶

222 篇文档，10 个领域，平均 67 页/33k 词
4055 个 QA 对（dev 2055 / eval 2000）
52.0% 跨页问题、39.2% 多图问题、61.7% 跨模态问题
48618 文本引用（4640 gold）、32071 图像引用（6349 gold）

实验关键数据¶

主结果（20 quotes, pure-text 输入）¶

模型	Quote F1	答案质量 Avg
GPT-4.1	68.3	4.07
Qwen2.5-72B-Inst	59.1	3.75
DeepSeek-V3	61.1	3.74
Gemini-2.5-Pro	65.1	3.79
Grok-3-beta	57.9	3.83

主结果（20 quotes, 多模态输入 VLM）¶

模型	Quote F1	答案质量 Avg
GPT-4.1 (MM)	70.2	4.14
Gemini-2.5-Pro (MM)	65.4	3.88
Gemini-2.5-Flash (MM)	62.4	3.76
Claude-3.5-Sonnet (MM)	62.5	3.65
Qwen2.5-VL-72B (MM)	57.5	3.47

微调效果¶

模型	F1 (before→after)	Avg (before→after)
Qwen2.5-72B-Inst	59.1→64.9	3.75→3.97
Qwen2.5-32B-Inst	58.9→65.1	3.63→3.93
Qwen2.5-14B-Inst	54.7→59.4	3.49→3.84
InternVL3-9B (VLM)	50.9→60.3	3.12→3.87

检索结果（Recall@20）¶

方法	Text Recall	Image Recall
BGE (text)	47.0	74.2
ColQwen (visual)	36.0	84.3
ColQ+BGE (hybrid)	47.7	85.2

消融实验要点¶

多模态 vs 纯文本输入：高级闭源 VLM（GPT-4.1、Gemini）使用多模态输入略优于纯文本，但差距不大（GPT-4.1: F1 70.2 vs 68.3）；开源/小模型 VLM 使用纯文本反而更好（Qwen2.5-VL-7B: F1 16.6 vs LLM 45.8，提升 176%）
VLM-text vs OCR-text：VLM 生成的图像描述显著优于 OCR 提取的文本，F1 平均高 6.5 点，答案质量高 0.14
Thinking 模式：思考模式消耗 3x 输出 token，但并未显著提升性能，表明逐步推理对多模态引用选择和整合帮助有限
引用位置偏好：模型对排在第一位的 gold 引用选择准确率最高，后续位置逐渐下降（呈现 "Lost in the Middle" 现象）
End-to-end RAG：检索质量与生成质量正相关；用 BGE 单检索器 recall 从 100% 降到 71%，GPT-4.1 的 F1 降 22.5%，答案质量降 14.7%；查询扩展和多检索器集成可缩小差距

亮点¶

首个评估多模态交错生成的 DocRAG 基准：填补了评估模型从噪声引用中选择多模态证据并生成交错图文回答的空白
Hard Negative 设计精巧：gold 引用仅占 13.5%~18.0%，有效测试模型区分相关/无关信息的能力
规模空前的实验：60 个模型 + 14 个检索器 + 9 个微调模型，覆盖面极广
发现反直觉但重要的结论：小模型 VLM 用纯文本输入反而优于多模态输入；Thinking 模式无明显增益
微调带来显著提升：证明即使简单的 LoRA 微调也能大幅改善引用选择和生成质量，为实践提供了明确方向

局限性 / 可改进方向¶

文档来源受限：基于 MMDocIR 的 313 篇文档，领域覆盖不够广（如缺少代码文档、法律文件等）
LLM-as-Judge 局限：五维度评分依赖 LLM 打分，可能存在评估偏差
仅评估"选择"而非"生成"多模态内容：要求模型从已有引用中选择图像而非从零生成，未覆盖端到端多模态生成能力
固定引用数量：只测了 15 和 20 条候选引用，更大规模（如 50/100）的场景未覆盖
未探索视觉 Token 压缩：Gemini 系列在多模态输入时 token 量与纯文本接近，暗示视觉 token 压缩可能是关键，但未深入分析

与相关工作的对比¶

vs MuRAR / M2RAG：MuRAR 和 M2RAG 也支持多模态答案生成，但局限于网页领域且缺乏证据标注。MMDocRAG 覆盖 10 个领域、提供 quote-level 证据标注和 hard negative
vs MMLongBench-Doc / DocBench：这些基准将 DocVQA 作为长上下文任务，但仅评估文本答案。MMDocRAG 首次支持多模态交错输出的评估
vs M3DocVQA / M-Longdoc / MMDocIR：这些基准虽包含检索子任务，但答案仍为纯文本。MMDocRAG 在此基础上增加了 quote selection 评估和多模态答案生成评估

启发与关联¶

该工作揭示了当前 VLM 在多模态证据整合上的巨大差距，对于设计未来的多模态 RAG 系统有重要参考价值
VLM-text 显著优于 OCR-text 的发现，启示在文档 RAG pipeline 中应优先使用 VLM 描述图像而非简单 OCR
微调效果显著提升小模型性能（如 Qwen2.5-14B 微调后接近 GPT-4o），说明特定任务的微调仍然是高效实用的优化策略
"小模型 VLM 不如对应 LLM 用文本输入"的发现，提示当前开源 VLM 在处理长多模态序列时的能力瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ 首个聚焦多模态交错生成的 DocRAG 基准，引用选择评估设计新颖，但整体仍是 benchmark 工作
实验充分度: ⭐⭐⭐⭐⭐ 60 个模型 + 14 检索器 + 微调 + 多维度细粒度分析，实验极其全面
写作质量: ⭐⭐⭐⭐ 结构清晰，表格丰富，但正文信息密度高，部分分析散落在附录中
价值: ⭐⭐⭐⭐ 为多模态 DocRAG 提供了重要的评估基础设施和实验发现，对该方向的研究有明确指导意义