跳转至

MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents

日期: 2026-03-05
arXiv: 2603.05697
代码: 项目页面
领域: 多模态/VLM
关键词: multimodal retrieval, benchmark, needle-in-a-haystack, cross-modal reasoning, RAG

一句话总结

构建首个大规模跨模态检索+推理基准 MultiHaystack:包含 46K+ 文档/图像/视频候选和 747 个问题,每个问题对应唯一证据项,揭示了 MLLM 在大规模异构检索场景下的严重性能退化(GPT-5 从 80.86% 降至 51.4%)。

研究背景与动机

  1. 领域现状:现有 VQA 基准要么只测推理(假设证据已给出),要么检索池太小(百级别),且多限于单一模态。
  2. 现有痛点:(1) 小候选池高估了检索能力——100 个候选 vs 46K 个候选的难度天差地别;(2) 单模态检索掩盖了跨模态检索的困难;(3) 问题设计不严格——多个候选可以回答同一问题,导致评估结果模糊。
  3. 核心矛盾:真实场景要求模型从海量异构数据中先找到相关证据再推理,但现有评测跳过了检索这一关键环节。
  4. 切入角度:构建"大海捞针"式基准——46K+ 多模态候选池中精确定位唯一证据项,分步评估检索和推理。

方法详解

整体框架

MultiHaystack 构建流程四阶段:(1) 数据收集——从 DocHaystack、MMIU、VideoVista 等聚合文档/图像/视频;(2) 问题生成——GPT-4o 对每个证据项生成 QA 对;(3) 多步过滤——双 LLM 过滤+人工审核+检索无关性测试;(4) 数据增强——关键词检索+CLIP 相似度筛选添加干扰项至 46K+。

关键设计

  1. 唯一证据约束(Unique Evidence Constraint)

    • 做什么:保证每个问题有且仅有一个正确证据项
    • 核心思路:三步过滤——GPT-4o+Gemini 移除歧义问题 → 人工审核丢弃无明确锚点的问题 → 检索无关性测试排除不需要检索即可回答的问题
    • 设计动机:明确的评估标准,可区分检索错误和推理错误
  2. 跨模态统一评估

    • 做什么:在同一检索空间中混合文档、图像和视频
    • 规模:25,652 图像 + 10,419 视频 + 10,189 文档 = 46,260 候选
    • 六类任务:视觉解析/上下文理解/视频时序推理/统计推理/元数据识别/事实检索
  3. 难负样本增强

    • 做什么:通过关键词搜索+相似度筛选构建有语义关联但不含答案的干扰项
    • 设计动机:确保检索不能通过简单的模态区分或关键词匹配解决

评估协议

检索用 Recall@1/3/5(项目级别),推理准确度用 GPT-4o-mini 自动判断(人工验证一致性>95%)。支持分步评估:检索质量 + 给定证据的推理质量 + 端到端质量。

实验关键数据

检索实验(Cross-modal)

模型 R@1 R@3 R@5
CLIP 26.10 37.08 41.10
SigLIP2 40.96 51.27 57.03
E5-V 40.83 58.90 66.00
MM-Embed 38.42 49.53 57.30

推理实验(给定证据 vs 检索后推理)

MLLM Gold Evidence Top-5 Retrieved 退化
GPT-5 80.86% 51.4% -29.5%
Gemini-2.5-Flash 74.2% 46.8% -27.4%
InternVL-3-8B 62.5% 38.1% -24.4%

关键发现

  • 检索是核心瓶颈:最强检索器 E5-V 的 R@1 仅 40.83%,即 60% 情况下第一名检索结果就是错的
  • 池扩展效应严重:E5-V 在 1K 池 R@1=72.42%,扩到 46K 后暴跌至 40.83%
  • 跨模态 vs 单模态:跨模态检索普遍比单模态低 10-20%,说明模态混合增加了巨大干扰
  • GPT-5 推理能力强但依赖准确检索——给对证据准确率 80%+,但实际端到端仅 50%

亮点与洞察

  • 诊断价值极高:首次在大规模异构池上量化了检索瓶颈的严重程度——之前的小规模评测严重高估了 RAG 系统的可靠性
  • 分步评估设计:将端到端失败解耦为"检索失败"和"推理失败",为模型改进提供了清晰的诊断方向
  • 唯一证据约束:看似简单但非常关键——避免了评估中的歧义问题,使 recall 指标有明确含义

局限性 / 可改进方向

  • 747 个问题总量仍然有限,某些任务类型样本较少(VPP 仅 33 个)
  • 视频用 8 帧均匀采样可能丢失关键时序信息
  • 检索和推理使用不同模型的管线设计,未评估端到端原生 RAG 模型
  • 干扰项通过关键词搜索构建,可能存在分布偏差

相关工作与启发

  • vs DocHaystack:DocHaystack 最多 1K 候选且限于文档,本文扩展到 46K 多模态
  • vs MM-NIAH:MM-NIAH 候选仅 10-70 且不保证唯一证据,本文严格得多
  • vs 传统 VQA:传统 VQA 跳过了检索环节,本文补充了这一关键缺失评估维度

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个大规模跨模态检索+推理基准,填补重要空白
  • 实验充分度: ⭐⭐⭐⭐ 多模型评估全面,但问题数量可再扩大
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,问题意识强
  • 价值: ⭐⭐⭐⭐⭐ 对 RAG 和多模态检索研究有重大推动作用