Two Causally Related Needles in a Video Haystack¶

会议: NeurIPS 2025 (Datasets & Benchmarks)
arXiv: 2505.19853
代码: https://limiaoyu.github.io/Causal2Needles
领域: 多模态VLM / 视频理解
关键词: 长视频理解, 因果推理, 双针问题, Benchmark, 视频语言模型

一句话总结¶

提出CAUSAL2NEEDLES benchmark评估VLM的长视频双针(2-needle)因果推理能力：需要从视频两个不同位置提取因果关联的事件信息并联合推理，利用"桥接实体"迫使模型先理解结果再追溯原因，揭示即使GPT-4o在2-needle因果问题上仅达13.4%的Both准确率（vs人类79.3%）。

背景与动机¶

长视频理解评估面临两大局限：(1) 已有benchmark多为1-needle问题（从单一位置提取信息），NLP研究已证明1-needle远不能反映真正的长上下文理解能力；(2) 对VLM的"世界模型"评估仅关注物体运动预测，忽视了人类行为因果推理。CAUSAL2NEEDLES通过要求VLM从视频两个不同位置提取因果关联事件并联合推理来弥补这些不足。

核心设计¶

问题结构¶

桥接实体(Bridge Entity)设计: 2-needle问题分为两部分，共享一个"桥接实体"——Part1问结果事件以解析桥接实体（如"tragedy"→Superman's death），Part2用解析后的桥接实体查询原因事件（如Superman是如何死的）。这迫使模型必须先理解Part1再解答Part2，不能跳过。

两种互补问题格式¶

Visual Grounding (VG): 选择包含答案的视频片段编号——必须理解视频内容
Image Description (ID): 描述目标视频片段的视觉细节——避免格式带来的OOD问题

数据规模¶

2,606个1-needle问题 + 1,494个2-needle问题，基于192个电影recap视频构建。

实验关键数据¶

模型	非因果1N	因果1N	VG 2N(Both)	ID 2N
人类	–	78.2	79.3	88.2
GPT-4o	56.8	39.2	13.4	59.2
Gemini-1.5-Pro	55.4	40.0	8.4	60.9
GPT-4o-mini	39.9	22.9	5.2	52.3
Qwen2.5VL-32B	30.7	17.7	1.9	53.5
随机基线	9.8	9.8	1.0	25.0

关键发现: - 2-needle远难于1-needle: GPT-4o从39.2%(因果1N)暴降到13.4%(VG 2N Both) - 因果远难于非因果: 39.2% vs 56.8%（GPT-4o） - 两针距离负相关: 两个事件在视频中距离越远，模型性能越差 - 开源模型接近随机: 大多数开源VLM在VG 2N Both上接近1%的随机水平

亮点¶

问题设计精妙: 桥接实体+歧义引用确保2-needle不可退化为1-needle
两种格式互补: VG防止文本捷径，ID避免格式OOD——共同给出可靠评估
揭示巨大差距: 人类79.3% vs GPT-4o 13.4%——长视频因果推理是VLM的重大缺陷
诊断精度高: 可以分别评估检索/理解/因果推理各维度的能力

局限性 / 可改进方向¶

基于电影recap视频，场景多样性受限
叙述文本可能提供额外线索
2-needle设计仅覆盖2个针，N>2的场景未涉及
未与专门的长视频模型（如Sophia、LongVU）做详细对比

与相关工作的对比¶

vs VideoMME/MLVU: 这些也有计数/追踪的multi-needle元素，但不要求联合理解+因果推理
vs EgoSchema: EgoSchema不区分1-needle和2-needle，诊断精度低
vs Needle-in-Haystack(文本): 多模态版本需要同时理解视频和文本，比纯文本更难

启发与关联¶

与Sophia（长视频VLM）结合：Sophia的层级注意力+帧剪枝能否提升2-needle性能？
与TVC（视觉遗忘）结合：两针距离越远性能越差——可能正是视觉遗忘导致的
桥接实体设计可以推广到Agent评估——Agent的多步操作也有前后因果依赖

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个多模态双针因果推理benchmark
实验充分度: ⭐⭐⭐⭐⭐ 13个VLM、多种问题类型、详细分析
写作质量: ⭐⭐⭐⭐⭐ 问题设计和Figure 1/2极其清晰
价值: ⭐⭐⭐⭐⭐ 揭示VLM长视频理解的关键瓶颈