Two Causally Related Needles in a Video Haystack¶
会议: NeurIPS 2025 (Datasets & Benchmarks)
arXiv: 2505.19853
代码: https://limiaoyu.github.io/Causal2Needles
领域: 多模态VLM / 视频理解
关键词: 长视频理解, 因果推理, 双针问题, Benchmark, 视频语言模型
一句话总结¶
提出CAUSAL2NEEDLES benchmark评估VLM的长视频双针(2-needle)因果推理能力:需要从视频两个不同位置提取因果关联的事件信息并联合推理,利用"桥接实体"迫使模型先理解结果再追溯原因,揭示即使GPT-4o在2-needle因果问题上仅达13.4%的Both准确率(vs人类79.3%)。
背景与动机¶
长视频理解评估面临两大局限:(1) 已有benchmark多为1-needle问题(从单一位置提取信息),NLP研究已证明1-needle远不能反映真正的长上下文理解能力;(2) 对VLM的"世界模型"评估仅关注物体运动预测,忽视了人类行为因果推理。CAUSAL2NEEDLES通过要求VLM从视频两个不同位置提取因果关联事件并联合推理来弥补这些不足。
核心设计¶
问题结构¶
桥接实体(Bridge Entity)设计: 2-needle问题分为两部分,共享一个"桥接实体"——Part1问结果事件以解析桥接实体(如"tragedy"→Superman's death),Part2用解析后的桥接实体查询原因事件(如Superman是如何死的)。这迫使模型必须先理解Part1再解答Part2,不能跳过。
两种互补问题格式¶
- Visual Grounding (VG): 选择包含答案的视频片段编号——必须理解视频内容
- Image Description (ID): 描述目标视频片段的视觉细节——避免格式带来的OOD问题
数据规模¶
2,606个1-needle问题 + 1,494个2-needle问题,基于192个电影recap视频构建。
实验关键数据¶
| 模型 | 非因果1N | 因果1N | VG 2N(Both) | ID 2N |
|---|---|---|---|---|
| 人类 | – | 78.2 | 79.3 | 88.2 |
| GPT-4o | 56.8 | 39.2 | 13.4 | 59.2 |
| Gemini-1.5-Pro | 55.4 | 40.0 | 8.4 | 60.9 |
| GPT-4o-mini | 39.9 | 22.9 | 5.2 | 52.3 |
| Qwen2.5VL-32B | 30.7 | 17.7 | 1.9 | 53.5 |
| 随机基线 | 9.8 | 9.8 | 1.0 | 25.0 |
关键发现: - 2-needle远难于1-needle: GPT-4o从39.2%(因果1N)暴降到13.4%(VG 2N Both) - 因果远难于非因果: 39.2% vs 56.8%(GPT-4o) - 两针距离负相关: 两个事件在视频中距离越远,模型性能越差 - 开源模型接近随机: 大多数开源VLM在VG 2N Both上接近1%的随机水平
亮点¶
- 问题设计精妙: 桥接实体+歧义引用确保2-needle不可退化为1-needle
- 两种格式互补: VG防止文本捷径,ID避免格式OOD——共同给出可靠评估
- 揭示巨大差距: 人类79.3% vs GPT-4o 13.4%——长视频因果推理是VLM的重大缺陷
- 诊断精度高: 可以分别评估检索/理解/因果推理各维度的能力
局限性 / 可改进方向¶
- 基于电影recap视频,场景多样性受限
- 叙述文本可能提供额外线索
- 2-needle设计仅覆盖2个针,N>2的场景未涉及
- 未与专门的长视频模型(如Sophia、LongVU)做详细对比
与相关工作的对比¶
- vs VideoMME/MLVU: 这些也有计数/追踪的multi-needle元素,但不要求联合理解+因果推理
- vs EgoSchema: EgoSchema不区分1-needle和2-needle,诊断精度低
- vs Needle-in-Haystack(文本): 多模态版本需要同时理解视频和文本,比纯文本更难
启发与关联¶
- 与Sophia(长视频VLM)结合:Sophia的层级注意力+帧剪枝能否提升2-needle性能?
- 与TVC(视觉遗忘)结合:两针距离越远性能越差——可能正是视觉遗忘导致的
- 桥接实体设计可以推广到Agent评估——Agent的多步操作也有前后因果依赖
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个多模态双针因果推理benchmark
- 实验充分度: ⭐⭐⭐⭐⭐ 13个VLM、多种问题类型、详细分析
- 写作质量: ⭐⭐⭐⭐⭐ 问题设计和Figure 1/2极其清晰
- 价值: ⭐⭐⭐⭐⭐ 揭示VLM长视频理解的关键瓶颈