Document Haystacks: Vision-Language Reasoning Over Piles of 1000+ Documents¶

属性	值
会议	CVPR 2025
arXiv	2411.16740
代码	GitHub
领域	人体理解 / 文档理解 / 多模态推理
关键词	document retrieval, visual QA, RAG, large multimodal model, benchmark

一句话总结¶

提出 DocHaystack 和 InfoHaystack 两个大规模文档检索基准（每个问题对应 1000+ 文档），以及 V-RAG——一个视觉中心的检索增强生成框架，在 Recall@1 上比最佳基线提升 9%-11%。

研究背景与动机¶

领域现状¶

大型多模态模型（LMMs）在视觉-语言理解上取得了显著进展，但在处理大规模图像/文档集合时仍面临困难。现有多图像 VQA 基准规模有限，每个问题最多配对 ~30 张图像，远不能反映真实场景需求。

现有痛点¶

基准规模不足：RetVQA、WebQA 等基准每个问题仅对应 ≤30 张图像，无法模拟真实的大规模文档检索场景
答案歧义问题：已有的 DocVQA、InfographicVQA 数据集中大量"通用问题"（如"表格编号是什么？"）可被多个文档回答，导致评估不可靠
LMMs 上下文长度受限：当前 LMMs 无法直接处理数百乃至上千张高分辨率文档图像
检索方法精度不足：单一视觉编码器难以全面捕获文档中的文字、符号、图表等多尺度信息

本文目标¶

建立每个问题对应 1000 个文档 的大规模文档检索基准，且保证答案唯一性
设计有效的视觉检索框架，使 LMMs 能在成百上千个文档中进行检索和推理

切入角度与核心 idea¶

通过三阶段数据过滤管线（LLM 过滤通用问题 → 人工审核 → 过滤通用知识问题）确保基准质量；提出 V-RAG，组合多个视觉编码器（CLIP + SigLIP + OpenCLIP）的集成检索 + LMM-Filter 二阶段过滤。

方法详解¶

整体框架¶

V-RAG 分为三步：(1) 视觉编码器集成——用 CLIP、SigLIP、OpenCLIP 三个编码器计算问题-文档相似度并取平均，选出 top-m 文档；(2) LMM-Filter 模块——用 LMM 逐一判断每个候选文档是否能回答该问题，剔除不相关文档；(3) LMM-VQA 模块——将 top-k 相关文档与问题输入 LMM 生成最终答案。

关键设计 1：三阶段数据过滤管线（基准构建）¶

功能：确保基准中每个问题在整个文档集中有唯一答案
核心思路：
- Step 1：用 GPT-4o 过滤"通用问题"（可被多个文档回答的问题）
- Step 2：人工审核，验证唯一标识符（人名、日期、标题等）存在性，并用 OCR + 全文搜索验证答案在其他文档中不出现
- Step 3：过滤"通用知识问题"——GPT-4o 无需图像即可回答的问题（DocVQA 中 26.4%、InfographicVQA 中 54.9% 的问题可被 GPT-4o 不看图直接回答）
设计动机：大规模检索基准的核心挑战不在于规模本身，而在于答案歧义性。没有严格过滤的基准无法可靠评估模型

关键设计 2：视觉编码器集成¶

功能：综合多种视觉编码器的互补能力提高检索精度
核心思路：对每个问题-文档对，分别用 CLIP (ViT-L/14@336)、SigLIP (ViT-SO400M/14@384)、OpenCLIP (ConvNeXt-XXL@1024) 计算余弦相似度 \(Sim_c\), \(Sim_s\), \(Sim_o\)，取平均得到 \(Sim_{avg}\)
设计动机：不同编码器各有所长——ConvNeXt 处理高分辨率强，CLIP 处理文本描述强，SigLIP 的全局匹配更稳定。实验验证表明三者集成优于任意单一编码器

关键设计 3：LMM-Filter 二阶段过滤¶

功能：利用 LMM 的推理能力进一步精炼检索结果
核心思路：对 top-m 候选文档，逐一配对问题输入 LMM（LLaVA-OneVision），提示"这张图片能否回答该问题？只回答是/否"。仅保留"是"的文档
设计动机：视觉编码器的相似度匹配是浅层语义，LMM 能做更深层的问题-文档关联推理。两阶段互补，粗筛高效、精筛准确

实验关键数据¶

检索结果 (Recall@1)¶

方法	DocH-100	DocH-1000	InfoH-100	InfoH-1000
BM25 (OCR)	63.30	56.88	56.77	38.71
CLIP	46.79	23.85	69.68	45.81
OpenCLIP	58.72	34.86	72.26	53.55
V-RAG	81.65	66.06	79.35	64.52

V-RAG 在 DocHaystack-1000 上 Recall@1 比最佳单一编码器（OpenCLIP）高 +31.2 个百分点。

VQA 结果¶

方法	DocH-100	DocH-1000	InfoH-100	InfoH-1000
GPT-4o (直接)	27.52	-	23.87	-
GPT-4o+V-RAG	81.65	66.97	65.16	56.77
Qwen2-VL-f.t.+V-RAG	86.24	73.39	67.10	60.00

GPT-4o 直接处理 200 张文档准确率仅 23.85%，加 V-RAG 后飙升至 72.48%（+48.63%）。

消融实验¶

CLIP	SigLIP	OpenCLIP	VLM-filter	DocH-1000 R@1
✓				23.85
		✓		34.86
✓	✓	✓		56.88
✓	✓	✓	✓	66.06

编码器集成贡献 +22 个百分点，LMM-Filter 再贡献 +9 个百分点。

关键发现¶

InfographicVQA 中 54.9% 的问题可被 GPT-4o 不看图回答，暴露语言偏见严重
LLaVA-OneVision 无法在 100 张文档以上的场景运行（上下文长度限制）
微调 Qwen2-VL（加 1-10 个干扰图训练）可进一步提升鲁棒性约 4-7 个百分点
问题类型分布：DocHaystack 侧重表格/列表，InfoHaystack 侧重图表/文本

亮点与洞察¶

基准设计理念深刻：三阶段过滤管线确保答案唯一性，尤其"通用知识过滤"这一步揭示了现有基准的语言偏见问题
V-RAG 的工程智慧：不训练新模型、不改架构，纯模块组合（编码器集成 + LMM 过滤）就获得巨大提升
1000 文档规模：首次将多图像检索推到千级别，暴露了当前 LMMs 长上下文能力的短板
编码器互补效应显著：三编码器集成比最强单编码器高 30+ 个百分点

局限性¶

最终保留数据较少（DocVQA 109 题 / InfographicVQA 155 题），testbed 规模偏小
V-RAG 的 LMM-Filter 需要对每个候选文档做一次 LMM 推理（top-60），延迟不低
"大海捞针"场景在实际问题分布上可能过于人工——真实场景的问题分布更复杂
基准仅覆盖英文文档，多语种文档检索场景未涉及

评分¶

⭐⭐⭐⭐ — 基准设计严谨、方法思路清晰、实验全面。V-RAG 本身技术含量不算前沿（主要是工程组合），但基准的贡献和暴露的问题（LMM 长上下文弱点、语言偏见）很有价值