MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents¶
日期: 2026-03-05
arXiv: 2603.05697
代码: 项目页面
领域: 多模态/VLM
关键词: multimodal retrieval, benchmark, needle-in-a-haystack, cross-modal reasoning, RAG
一句话总结¶
构建首个大规模跨模态检索+推理基准 MultiHaystack:包含 46K+ 文档/图像/视频候选和 747 个问题,每个问题对应唯一证据项,揭示了 MLLM 在大规模异构检索场景下的严重性能退化(GPT-5 从 80.86% 降至 51.4%)。
研究背景与动机¶
- 领域现状:现有 VQA 基准要么只测推理(假设证据已给出),要么检索池太小(百级别),且多限于单一模态。
- 现有痛点:(1) 小候选池高估了检索能力——100 个候选 vs 46K 个候选的难度天差地别;(2) 单模态检索掩盖了跨模态检索的困难;(3) 问题设计不严格——多个候选可以回答同一问题,导致评估结果模糊。
- 核心矛盾:真实场景要求模型从海量异构数据中先找到相关证据再推理,但现有评测跳过了检索这一关键环节。
- 切入角度:构建"大海捞针"式基准——46K+ 多模态候选池中精确定位唯一证据项,分步评估检索和推理。
方法详解¶
整体框架¶
MultiHaystack 构建流程四阶段:(1) 数据收集——从 DocHaystack、MMIU、VideoVista 等聚合文档/图像/视频;(2) 问题生成——GPT-4o 对每个证据项生成 QA 对;(3) 多步过滤——双 LLM 过滤+人工审核+检索无关性测试;(4) 数据增强——关键词检索+CLIP 相似度筛选添加干扰项至 46K+。
关键设计¶
-
唯一证据约束(Unique Evidence Constraint):
- 做什么:保证每个问题有且仅有一个正确证据项
- 核心思路:三步过滤——GPT-4o+Gemini 移除歧义问题 → 人工审核丢弃无明确锚点的问题 → 检索无关性测试排除不需要检索即可回答的问题
- 设计动机:明确的评估标准,可区分检索错误和推理错误
-
跨模态统一评估:
- 做什么:在同一检索空间中混合文档、图像和视频
- 规模:25,652 图像 + 10,419 视频 + 10,189 文档 = 46,260 候选
- 六类任务:视觉解析/上下文理解/视频时序推理/统计推理/元数据识别/事实检索
-
难负样本增强:
- 做什么:通过关键词搜索+相似度筛选构建有语义关联但不含答案的干扰项
- 设计动机:确保检索不能通过简单的模态区分或关键词匹配解决
评估协议¶
检索用 Recall@1/3/5(项目级别),推理准确度用 GPT-4o-mini 自动判断(人工验证一致性>95%)。支持分步评估:检索质量 + 给定证据的推理质量 + 端到端质量。
实验关键数据¶
检索实验(Cross-modal)¶
| 模型 | R@1 | R@3 | R@5 |
|---|---|---|---|
| CLIP | 26.10 | 37.08 | 41.10 |
| SigLIP2 | 40.96 | 51.27 | 57.03 |
| E5-V | 40.83 | 58.90 | 66.00 |
| MM-Embed | 38.42 | 49.53 | 57.30 |
推理实验(给定证据 vs 检索后推理)¶
| MLLM | Gold Evidence | Top-5 Retrieved | 退化 |
|---|---|---|---|
| GPT-5 | 80.86% | 51.4% | -29.5% |
| Gemini-2.5-Flash | 74.2% | 46.8% | -27.4% |
| InternVL-3-8B | 62.5% | 38.1% | -24.4% |
关键发现¶
- 检索是核心瓶颈:最强检索器 E5-V 的 R@1 仅 40.83%,即 60% 情况下第一名检索结果就是错的
- 池扩展效应严重:E5-V 在 1K 池 R@1=72.42%,扩到 46K 后暴跌至 40.83%
- 跨模态 vs 单模态:跨模态检索普遍比单模态低 10-20%,说明模态混合增加了巨大干扰
- GPT-5 推理能力强但依赖准确检索——给对证据准确率 80%+,但实际端到端仅 50%
亮点与洞察¶
- 诊断价值极高:首次在大规模异构池上量化了检索瓶颈的严重程度——之前的小规模评测严重高估了 RAG 系统的可靠性
- 分步评估设计:将端到端失败解耦为"检索失败"和"推理失败",为模型改进提供了清晰的诊断方向
- 唯一证据约束:看似简单但非常关键——避免了评估中的歧义问题,使 recall 指标有明确含义
局限性 / 可改进方向¶
- 747 个问题总量仍然有限,某些任务类型样本较少(VPP 仅 33 个)
- 视频用 8 帧均匀采样可能丢失关键时序信息
- 检索和推理使用不同模型的管线设计,未评估端到端原生 RAG 模型
- 干扰项通过关键词搜索构建,可能存在分布偏差
相关工作与启发¶
- vs DocHaystack:DocHaystack 最多 1K 候选且限于文档,本文扩展到 46K 多模态
- vs MM-NIAH:MM-NIAH 候选仅 10-70 且不保证唯一证据,本文严格得多
- vs 传统 VQA:传统 VQA 跳过了检索环节,本文补充了这一关键缺失评估维度
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个大规模跨模态检索+推理基准,填补重要空白
- 实验充分度: ⭐⭐⭐⭐ 多模型评估全面,但问题数量可再扩大
- 写作质量: ⭐⭐⭐⭐ 结构清晰,问题意识强
- 价值: ⭐⭐⭐⭐⭐ 对 RAG 和多模态检索研究有重大推动作用