REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark¶

会议: ACL 2025
arXiv: 2502.12342
代码: 无
领域: 多模态VLM
关键词: 多模态检索, RAG, 检索增强生成, 查询改写鲁棒性, 文档检索

一句话总结¶

提出 REAL-MM-RAG 多模态文档检索基准，定义了真实世界检索基准的四大关键属性（多模态文档、增强难度、真实 RAG 查询、准确标注），引入多级查询改写鲁棒性评估，并通过针对性训练集（改写数据集+金融表格数据集）实现 SOTA 检索性能。

研究背景与动机¶

检索增强生成（RAG）已成为处理大规模文档的重要范式，准确的文档检索是 RAG 性能的基石——检索到错误页面必然导致生成答案错误。然而现有的多模态检索基准存在严重不足。

作者识别了真实世界文档检索基准的四项关键属性：

多模态文档：数据集应包含文本、图表、表格等混合内容

增强难度：查询应超越简单关键词匹配，需要大量上下文相似的文档页面

真实 RAG 查询：查询应反映用户在不知道答案位置时的自然提问方式，而非引用特定页面

准确标注：所有相关文档必须被正确且完整地标注

现有基准的问题： - ViDoRe：ColQwen 在其上达到 ~90% NDCG@5，难度过低；VLM 生成的查询直接复制文档原文，使得关键词匹配即可检索 - MMLongBench：基于 QA 数据集，查询假设对特定页面的先验知识，不符合 RAG 场景 - 所有现有基准的假阴性率极高：ViDoRe 86.9%、MMLongBench 77.8%（即大量正确检索被误判为错误）

方法详解¶

整体框架¶

REAL-MM-RAG 包含两个核心贡献：（1）满足四大属性的高质量基准构建管线；（2）基于基准分析发现的弱点，提出针对性训练策略（改写训练集+金融表格训练集）。

关键设计¶

文档收集：聚焦长文档和同一子领域的大量页面（以 IBM 公司数据为核心），共~8000 页分布在四个子领域：
- FinReport：财务报告（2005-2023），19份文档/2687页，文本+表格混合
- FinSlides：季度财务演示（2008-2024），65份/2280页，大量表格
- TechReport：FlashSystem 技术文档，17份/1674页，文本为主
- TechSlides：业务和IT自动化演示，62份/1963页，视觉内容丰富
查询生成与过滤：两步流程确保 RAG 适配性。
- 生成：使用 Pixtral-12B VLM 为每页生成 10 个查询-答案对，prompt 要求生成 RAG 特定问题
- 过滤：使用 Mixtral-8x22B LLM 评估每个查询是否适合作为检索查询，剔除包含页面引用（如"in Figure 5"）或过于宽泛的查询
多级查询改写（Multi-level Rephrasing）：解决 VLM 生成查询与文档原文高度重叠的问题。
- 使用 Mixtral-8x22B 进行三级改写：Level 1 轻微词汇替换、Level 2 修改词汇和句序、Level 3 显著词汇改写和句子重组
- 每个查询存在 4 个版本（原始 + 3 级改写），全部链接到同一文档页面
- 改写后由 LLM 验证保留原始语义
假阴性验证（Accurate Labeling）：使用 Pixtral-12B 将每个查询与所有基准页面进行系统测试，识别所有可能包含答案的页面。虽然计算开销大，但有效防止假阴性。最终仅保留唯一正确页面被验证的查询。
针对性训练策略：
- 改写训练集：对 ColPali 训练集的一半查询使用 LLaMA-3-70B（与基准使用不同 LLM）进行随机级别改写，强制模型学习语义而非关键词匹配
- 金融表格训练集：使用 FinTabNet（S&P 500 公司报告中的复杂表格），通过相同管线生成 46,000 个查询-答案-页面三元组

训练策略¶

在改写数据集和/或金融表格数据集上微调 ColPali-v1.2 和 ColQwen2-v1.0
训练 1 个 epoch，结合 ColPali 原始训练集
产生四种模型变体：RobCol（改写训练）、TabCol（表格训练）、RobTabCol（两者结合）

实验关键数据¶

主实验（NDCG@5，Level 3 改写查询）¶

模型	FinReport	FinSlides	TechReport	TechSlides
ColPali	34.5	27.6	62.0	75.8
ColQwen	41.8	31.1	66.9	78.1
RobTabColPali	63.2(↑28.7)	58.3(↑30.7)	70.7(↑8.7)	83.3(↑7.5)
RobTabColQwen	67.1(↑25.3)	61.6(↑30.5)	73.2(↑6.3)	85.0(↑6.9)

查询改写级别影响（所有基准平均 NDCG@5）¶

改写级别	ColPali	RobTabColPali	ColQwen	RobTabColQwen
0（无改写）	71.3	80.8	78.9	85.1
1（轻微）	65.3	77.8	72.5	81.7
2（中等）	60.3	74.9	68.2	78.6
3（显著）	56.6	72.7	65.3	76.4

基准质量人工评估¶

指标	ViDoRe	MMLongBench	REAL-MM-RAG
假阴性率 ↓	86.9%	77.8%	31.9%
真实 RAG 查询率 ↑	43.6%	35.2%	85.0%

关键发现¶

视觉模型显著优于文本模型：在所有基准上，基于 VLM 的直接页面嵌入远超 OCR+文本检索
金融表格文档极其困难：FinSlides 上 ColPali 仅 27.6%，说明表格密集的文档是当前模型的重大弱点
查询改写导致巨大性能下降：BM25 受影响最大（从 52.7% 降到 27.1%），密集检索模型更鲁棒但仍显著下降
RobTabCol 组合训练最有效：金融基准上提升 25-30 个 NDCG@5 点，且不损害非金融基准性能
改写训练不损害非改写性能：RobCol 在非改写查询上也保持或提升，说明语义学习是双赢的
现有基准的假阴性问题极其严重：ViDoRe 的 86.9% 假阴性率意味着大部分"错误"实际上是正确检索

亮点与洞察¶

四大属性的系统性定义：首次系统地定义了真实世界多模态检索基准应具备的关键属性，为未来基准设计提供了参考框架
改写评估的首创性：首个多模态文档 RAG 的查询改写鲁棒性评估，揭示了现有模型"依赖关键词"而非"理解语义"的本质问题
假阴性验证的重要性：通过人工评估量化证明现有基准的严重标注问题，为领域内模型性能的真实水平提供了校准
从评估到改进的完整闭环：基准发现问题 → 针对性训练策略 → 验证改进效果，展示了好的基准如何推动模型进步

局限与展望¶

查询由 VLM 生成，可能无法完全覆盖人类查询的多样性
标注和过滤仍依赖 LLM/VLM，尽管人工评估验证了有效性，但仍可能存在遗漏
聚焦单一公司（IBM）数据，领域多样性有限
未涉及多页面推理查询——需要跨多页信息综合才能回答的查询
仅评估检索组件，未延伸到 RAG 的生成阶段评估
训练策略依赖特定领域的训练数据构建，对新领域的适配需要重新收集

评分¶

新颖性: ⭐⭐⭐⭐ 四大属性定义、多级改写评估和假阴性验证都是重要贡献
实验充分度: ⭐⭐⭐⭐⭐ 多种模型、多级改写、人工评估、训练消融，实验设计极其充分
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，对比表格完整，实验分析深入，论证逻辑严密
价值: ⭐⭐⭐⭐⭐ 为多模态 RAG 检索提供了急需的高质量基准和改进方案，实用价值极高