跳转至

Two Causally Related Needles in a Video Haystack

会议: NeurIPS 2025 (Datasets & Benchmarks)
arXiv: 2505.19853
代码: https://limiaoyu.github.io/Causal2Needles
领域: 多模态VLM / 视频理解
关键词: 长视频理解, 因果推理, 双针问题, Benchmark, 视频语言模型

一句话总结

提出CAUSAL2NEEDLES benchmark评估VLM的长视频双针(2-needle)因果推理能力:需要从视频两个不同位置提取因果关联的事件信息并联合推理,利用"桥接实体"迫使模型先理解结果再追溯原因,揭示即使GPT-4o在2-needle因果问题上仅达13.4%的Both准确率(vs人类79.3%)。

背景与动机

长视频理解评估面临两大局限:(1) 已有benchmark多为1-needle问题(从单一位置提取信息),NLP研究已证明1-needle远不能反映真正的长上下文理解能力;(2) 对VLM的"世界模型"评估仅关注物体运动预测,忽视了人类行为因果推理。CAUSAL2NEEDLES通过要求VLM从视频两个不同位置提取因果关联事件并联合推理来弥补这些不足。

核心设计

问题结构

桥接实体(Bridge Entity)设计: 2-needle问题分为两部分,共享一个"桥接实体"——Part1问结果事件以解析桥接实体(如"tragedy"→Superman's death),Part2用解析后的桥接实体查询原因事件(如Superman是如何死的)。这迫使模型必须先理解Part1再解答Part2,不能跳过。

两种互补问题格式

  • Visual Grounding (VG): 选择包含答案的视频片段编号——必须理解视频内容
  • Image Description (ID): 描述目标视频片段的视觉细节——避免格式带来的OOD问题

数据规模

2,606个1-needle问题 + 1,494个2-needle问题,基于192个电影recap视频构建。

实验关键数据

模型 非因果1N 因果1N VG 2N(Both) ID 2N
人类 78.2 79.3 88.2
GPT-4o 56.8 39.2 13.4 59.2
Gemini-1.5-Pro 55.4 40.0 8.4 60.9
GPT-4o-mini 39.9 22.9 5.2 52.3
Qwen2.5VL-32B 30.7 17.7 1.9 53.5
随机基线 9.8 9.8 1.0 25.0

关键发现: - 2-needle远难于1-needle: GPT-4o从39.2%(因果1N)暴降到13.4%(VG 2N Both) - 因果远难于非因果: 39.2% vs 56.8%(GPT-4o) - 两针距离负相关: 两个事件在视频中距离越远,模型性能越差 - 开源模型接近随机: 大多数开源VLM在VG 2N Both上接近1%的随机水平

亮点

  • 问题设计精妙: 桥接实体+歧义引用确保2-needle不可退化为1-needle
  • 两种格式互补: VG防止文本捷径,ID避免格式OOD——共同给出可靠评估
  • 揭示巨大差距: 人类79.3% vs GPT-4o 13.4%——长视频因果推理是VLM的重大缺陷
  • 诊断精度高: 可以分别评估检索/理解/因果推理各维度的能力

局限性 / 可改进方向

  • 基于电影recap视频,场景多样性受限
  • 叙述文本可能提供额外线索
  • 2-needle设计仅覆盖2个针,N>2的场景未涉及
  • 未与专门的长视频模型(如Sophia、LongVU)做详细对比

与相关工作的对比

  • vs VideoMME/MLVU: 这些也有计数/追踪的multi-needle元素,但不要求联合理解+因果推理
  • vs EgoSchema: EgoSchema不区分1-needle和2-needle,诊断精度低
  • vs Needle-in-Haystack(文本): 多模态版本需要同时理解视频和文本,比纯文本更难

启发与关联

  • 与Sophia(长视频VLM)结合:Sophia的层级注意力+帧剪枝能否提升2-needle性能?
  • 与TVC(视觉遗忘)结合:两针距离越远性能越差——可能正是视觉遗忘导致的
  • 桥接实体设计可以推广到Agent评估——Agent的多步操作也有前后因果依赖

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个多模态双针因果推理benchmark
  • 实验充分度: ⭐⭐⭐⭐⭐ 13个VLM、多种问题类型、详细分析
  • 写作质量: ⭐⭐⭐⭐⭐ 问题设计和Figure 1/2极其清晰
  • 价值: ⭐⭐⭐⭐⭐ 揭示VLM长视频理解的关键瓶颈