MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents¶

日期: 2026-03-05
arXiv: 2603.05697
代码: 项目页面
领域: 多模态/VLM
关键词: multimodal retrieval, benchmark, needle-in-a-haystack, cross-modal reasoning, RAG

一句话总结¶

构建首个大规模跨模态检索+推理基准 MultiHaystack：包含 46K+ 文档/图像/视频候选和 747 个问题，每个问题对应唯一证据项，揭示了 MLLM 在大规模异构检索场景下的严重性能退化（GPT-5 从 80.86% 降至 51.4%）。

研究背景与动机¶

领域现状：现有 VQA 基准要么只测推理（假设证据已给出），要么检索池太小（百级别），且多限于单一模态。
现有痛点：(1) 小候选池高估了检索能力——100 个候选 vs 46K 个候选的难度天差地别；(2) 单模态检索掩盖了跨模态检索的困难；(3) 问题设计不严格——多个候选可以回答同一问题，导致评估结果模糊。
核心矛盾：真实场景要求模型从海量异构数据中先找到相关证据再推理，但现有评测跳过了检索这一关键环节。
切入角度：构建"大海捞针"式基准——46K+ 多模态候选池中精确定位唯一证据项，分步评估检索和推理。

方法详解¶

整体框架¶

MultiHaystack 构建流程四阶段：(1) 数据收集——从 DocHaystack、MMIU、VideoVista 等聚合文档/图像/视频；(2) 问题生成——GPT-4o 对每个证据项生成 QA 对；(3) 多步过滤——双 LLM 过滤+人工审核+检索无关性测试；(4) 数据增强——关键词检索+CLIP 相似度筛选添加干扰项至 46K+。

关键设计¶

唯一证据约束（Unique Evidence Constraint）：
- 做什么：保证每个问题有且仅有一个正确证据项
- 核心思路：三步过滤——GPT-4o+Gemini 移除歧义问题 → 人工审核丢弃无明确锚点的问题 → 检索无关性测试排除不需要检索即可回答的问题
- 设计动机：明确的评估标准，可区分检索错误和推理错误
跨模态统一评估：
- 做什么：在同一检索空间中混合文档、图像和视频
- 规模：25,652 图像 + 10,419 视频 + 10,189 文档 = 46,260 候选
- 六类任务：视觉解析/上下文理解/视频时序推理/统计推理/元数据识别/事实检索
难负样本增强：
- 做什么：通过关键词搜索+相似度筛选构建有语义关联但不含答案的干扰项
- 设计动机：确保检索不能通过简单的模态区分或关键词匹配解决

评估协议¶

检索用 Recall@1/3/5（项目级别），推理准确度用 GPT-4o-mini 自动判断（人工验证一致性>95%）。支持分步评估：检索质量 + 给定证据的推理质量 + 端到端质量。

实验关键数据¶

模型	R@1	R@3	R@5
CLIP	26.10	37.08	41.10
SigLIP2	40.96	51.27	57.03
E5-V	40.83	58.90	66.00
MM-Embed	38.42	49.53	57.30

推理实验（给定证据 vs 检索后推理）¶

MLLM	Gold Evidence	Top-5 Retrieved	退化
GPT-5	80.86%	51.4%	-29.5%
Gemini-2.5-Flash	74.2%	46.8%	-27.4%
InternVL-3-8B	62.5%	38.1%	-24.4%

关键发现¶

检索是核心瓶颈：最强检索器 E5-V 的 R@1 仅 40.83%，即 60% 情况下第一名检索结果就是错的
池扩展效应严重：E5-V 在 1K 池 R@1=72.42%，扩到 46K 后暴跌至 40.83%
跨模态 vs 单模态：跨模态检索普遍比单模态低 10-20%，说明模态混合增加了巨大干扰
GPT-5 推理能力强但依赖准确检索——给对证据准确率 80%+，但实际端到端仅 50%

亮点与洞察¶

诊断价值极高：首次在大规模异构池上量化了检索瓶颈的严重程度——之前的小规模评测严重高估了 RAG 系统的可靠性
分步评估设计：将端到端失败解耦为"检索失败"和"推理失败"，为模型改进提供了清晰的诊断方向
唯一证据约束：看似简单但非常关键——避免了评估中的歧义问题，使 recall 指标有明确含义

局限性 / 可改进方向¶

747 个问题总量仍然有限，某些任务类型样本较少（VPP 仅 33 个）
视频用 8 帧均匀采样可能丢失关键时序信息
检索和推理使用不同模型的管线设计，未评估端到端原生 RAG 模型
干扰项通过关键词搜索构建，可能存在分布偏差

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个大规模跨模态检索+推理基准，填补重要空白
实验充分度: ⭐⭐⭐⭐ 多模型评估全面，但问题数量可再扩大
写作质量: ⭐⭐⭐⭐ 结构清晰，问题意识强
价值: ⭐⭐⭐⭐⭐ 对 RAG 和多模态检索研究有重大推动作用