跳转至

Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

会议: CVPR 2026
arXiv: 2603.13215
代码: https://glab-caltech.github.io/STEVOBench/ (有项目主页和代码)
领域: 视频理解 / 世界模型 / 基准评测
关键词: 视频世界模型, 状态演化, 观测解耦, 自动评估, benchmark

一句话总结

提出 StEvo-Bench 基准测试,通过在演化过程中插入遮挡或让相机"看向别处"来检验视频世界模型能否将状态演化与观测解耦,揭示了当前模型(包括 Veo 3、Sora 2 Pro 等)的任务成功率不到 10%,暴露了严重的"演化停止"和"不一致性"问题。

背景与动机

现实世界中,物理过程不因观测中断而停止——倒水时即使移开视线,水杯中的水位依然上升。视频世界模型通过生成 2D 帧来"模拟"世界,但它们生成的"世界"是否真的独立于观测而演化?随着世界模型向更大规模、更长时域发展,任意时刻可见的帧只是整个生成世界的极小部分,大部分世界处于不可观测状态。因此,模型必须能在未被观测时继续正确演化世界状态。然而,现有 benchmark 要么只测物理合理性(VideoPhy),要么只测一致性(World Consistency Score、MIND),没有一个能同时评估"状态在不被观测时是否继续演化"这一关键能力。

核心问题

视频世界模型能否将状态演化与观测解耦?具体而言,包含三个隐含方面:(1)物理合理性——演化过程是否符合物理规律;(2)一致性——非演化部分(如物体外观、场景布局)在遮挡前后是否保持一致;(3)状态进展——未被观测期间,过程是否确实继续发生了。现有 benchmark 分别涉及(1)和(2),但没有任何一个涵盖全部三个方面。

方法详解

整体框架

StEvo-Bench 包含 225 个独特任务,覆盖 6 类自然过程演化:连续过程(如倒水)、运动学(如骨牌倒下)、关系变化、因果变化、状态变换(如冰融化)、预期的人/动物行为。每个任务由(初始图像, 文本提示, 相机控制)三元组指定。文本提示包含两类控制:动作控制(启动演化过程)和观测控制(中断观测)。对于普通视频模型,观测控制通过文本指令插入遮挡物或关灯;对于相机控制模型,通过指定相机"看向别处再看回来"的轨迹。最后,评估遮挡/移开前后主体的状态变化。

关键设计

  1. 两阶段评估流水线: 先评估控制是否成功(观测控制验证器 + 动作控制验证器),只有通过控制验证的视频才进入演化评估(状态进展 + 物理合理性 + 一致性三个验证器)。这种分层设计避免了未被正确控制的样本污染演化评估结果。

  2. 五个专家验证器(Specialist Verifiers): 基于 Gemini 3.1 Pro 构建,每个验证器只回答一个窄范围的 yes/no 问题。分解为独立专家的好处有二:(a)支持细粒度的失败模式诊断——当前模型往往在一个视频中展现多种纠缠的失败模式;(b)窄范围问题比一个"全能"prompt 更能产生可靠的 VLM 判断。状态进展验证器使用 VLM 先推理出"应该发生什么方向性变化",再用 \(n=3\) 的一致投票集成判断是否发生。物理合理性验证器区分两类违反:瞬时单帧违反和动态因果违反。

  3. 模型特定的观测控制: 对视频生成模型使用文本指令的场景内遮挡(纸板、窗帘、关灯);对相机控制模型使用"右转30步-左转30步"的相机轨迹。这种设计确保了对不同模型接口的覆盖。

损失函数 / 训练策略

本文是 benchmark 论文,不涉及模型训练。评估协议的关键设计是:任务成功需要同时通过控制成功(两个控制验证器均通过)和演化成功(三个演化验证器均通过)。

实验关键数据

模型 任务成功率(%) 状态进展(%) 物理合理性(%) 一致性(%)
Veo 3 8.7 17.4 82.6 66.5
Sora 2 Pro 8.1 13.1 85.5 69.7
WAN 2.2 0.9 7.7 52.0 58.4
HunyuanVideo 1.5 0.9 4.1 42.1 59.1
CogVideoX 1.5 0.5 1.4 68.5 67.1
Genie 3 0.0 2.9 15.2 27.3
HY-WorldPlay 0.0 0.0 72.2 88.2
Lingbot 0.0 3.4 40.7 76.3
GEN3C 0.0 0.0 30.6 82.4

观测控制对比实验(Veo 3 + Sora 2 Pro 平均): - 完全观测时:状态进展率 84.6%,任务成功率 46.2% - 应用观测控制后:状态进展率 17.4%,任务成功率 12.4%

消融实验要点

  • 观测控制是根本原因:同样的过程完全可见时模型能正确生成,插入遮挡/关灯后立即失败,说明模型具备过程知识但无法在未观测时应用
  • 相机控制模型有强烈静态场景偏见:几乎所有相机控制模型的状态进展率接近 0%,相机转动时场景被"冻结"
  • 演化与相机控制的对立(Finding 4):当模型成功生成动态过程时,反而无法执行相机控制——相机保持静止以维持过程的视觉描述
  • 记忆模块无助于解耦(Finding 5):VMem 等记忆架构能精确回忆初始帧,但强化了静态场景偏见,未能帮助状态演化
  • 验证器可靠性:V-H 一致性在几乎所有指标上达到或超过 H-H 一致性,MRA 在所有标准上均优于人类间一致性

亮点

  • 问题定义极具洞察力:将"状态演化与观测解耦"这个本质性问题具象化为可测试的 benchmark 任务,抓住了世界模型向大规模/长时域发展的核心瓶颈
  • 发现具有启发性:完全可见时能生成正确过程,遮挡后立刻失败——说明问题不在于缺乏物理知识,而在于架构无法在无视觉线索时调用这些知识。这一发现直接指向了 attention 机制的局限性
  • 数据偏见分析深刻:指出相机控制模型的训练数据(渲染的静态 3D 场景)将复杂相机运动与静态场景强绑定,解释了为什么这些模型在需要同时演化状态和控制相机时失败
  • 评估设计工程化做得好:分层评估+专家验证器+集成投票,验证器-人类一致性经过严格验证

局限性 / 可改进方向

  • 任务规模有限:225 个任务,相比大规模 benchmark 偏小,可能不够覆盖长尾场景
  • 依赖 VLM 判断:验证器基于 Gemini 3.1 Pro,存在偶发的 VLM 失败(如忽视细微视觉细节),虽然用集成缓解但无法完全避免
  • 未评估潜在状态世界模型:如 DINO-WM、V-JEPA2 等使用潜在表示的模型,这类模型可能天然更擅长解耦演化与观测
  • 建设性方案缺失:论文主要暴露问题,未提出可能的解决方向(如修改训练策略或架构设计的具体建议)
  • 可以扩展到更长时域、多物体交互、因果链推理等更复杂场景

与相关工作的对比

  • VideoPhy/VideoPhy2: 专注物理合理性评估,但在完全观测条件下进行,不测试状态在未观测时是否继续演化。StEvo-Bench 在应用观测控制的条件下同时评估物理合理性
  • MIND benchmark: 测试世界模型的记忆和一致性,但仅针对静态场景,不涉及动态过程的演化。StEvo-Bench 强调的是动态过程在观测中断后是否继续
  • WorldScore: 综合评估世界生成质量的多个维度,但不包含"遮挡后状态是否继续"这一维度。StEvo-Bench 填补了评估体系中缺失的关键一环

启发与关联

  • 对世界模型的架构设计有重要启发:全对全的双向 attention 在遮挡帧不包含有用演化信息时可能是低效的,需要探索能区分"状态承载帧"和"无信息帧"的注意力机制
  • 训练数据的组成直接影响模型能力:如果要同时支持动态演化和相机控制,训练数据中需要包含"动态场景+相机运动"的样本,而非仅有静态场景的渲染数据
  • 可以用 StEvo-Bench 的评估框架来测试未来的视频世界模型改进是否真正解决了状态演化问题

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性提出并评估视频世界模型的状态演化-观测解耦能力,问题定义极具前瞻性
  • 实验充分度: ⭐⭐⭐⭐ 覆盖10个模型、225个任务、严格的验证器验证,但任务数量可以更大
  • 写作质量: ⭐⭐⭐⭐⭐ 论文叙事引人入胜,从直觉(倒水不因移开视线而停止)到系统化评测,逻辑流畅
  • 价值: ⭐⭐⭐⭐⭐ 对世界模型研究方向有重大指导意义,暴露的问题直接指向架构和数据层面的改进方向