跳转至

Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos

会议: CVPR 2026
arXiv: 2603.13185
代码: 暂无
领域: 3D视觉 / 场景理解
关键词: world scene graph, spatio-temporal, object permanence, 4D reconstruction, video understanding

一句话总结

提出世界场景图生成 (WSGG) 任务——从单目视频生成以世界坐标系为锚定的时空场景图 (包含被遮挡物体), 构建 ActionGenome4D 数据集, 并设计三种方法 (PWG/MWAE/4DST) 探索不同归纳偏置, 4DST 用时间 Transformer 取得最佳 R@10 66.40%.

研究背景与动机

  1. 领域现状: 现有视频场景图以帧为中心, 物体离开视野就丢失, 不维护世界级别的持久对象.
  2. 现有痛点: (a) 帧中心场景图无法推理被遮挡或暂时不可见的物体; (b) 缺少 3D 锚定, 无法在世界坐标系中定位对象; (c) 没有现有数据集支持世界级场景图评估.
  3. 核心idea一句话: 世界场景图=世界坐标系 3D 边界框 + 物体持久性 + 包含不可见对象的关系图.

方法详解

关键设计

  1. ActionGenome4D 数据集: 用 3D 重建 + GDINO 检测 + SAM2 分割 + VLM 伪标注构建, 包含可见和不可见对象的 3D OBB
  2. PWG (Permanence World Graph): 最后已知状态零阶缓冲器 + 过时追踪
  3. MWAE (Masked World Auto-Encoder): 掩码补全 + 关联检索器推理不可见对象
  4. 4DST (4D Spatio-Temporal): 时间 Transformer 替代静态缓冲, 效果最佳
  5. 共享组件: 全局结构编码器, 空间 GNN, 时间边注意力, 相机位姿编码

实验关键数据

主实验: ActionGenome4D (PredCls, DINOv2-L)

方法 R@10 R@20 R@50
PWG 65.07% 67.99% 68.00%
MWAE 65.33% 68.30% 68.31%
4DST 66.40% 69.15% 69.16%

关键发现

  • 时间 Transformer (4DST) 优于静态缓冲 (PWG) 和掩码补全 (MWAE)
  • VLM 伪标签对不可见对象关系建模至关重要
  • 世界级锚定使得 3D 几何脚手架能推理暂时不可见的对象

亮点与洞察

  • 物体持久性是新范式: 不是帧级检测, 而是维护世界中所有对象的持续状态
  • 3D 几何脚手架的价值: 即使暂时看不到, 3D 重建让模型知道对象在哪里
  • 三种方法提供不同视角: 缓冲 vs 补全 vs 注意力, 时间注意力最有效

局限性 / 可改进方向

  • 数据集构建依赖 3D 重建质量, 重建失败会影响标注准确性
  • 评估指标沿用 2D 场景图指标 (R@K), 可能不完全适合 3D 世界场景
  • 目前仅处理静态场景中的动态对象, 未考虑场景本身的变化
  • VLM 伪标签可能引入系统性偏差
  • 三种方法差距不大 (R@10: 65-66%), 说明任务本身还有很大提升空间

相关工作与启发

  • vs ActionGenome: 帧级场景图, 不维护世界坐标和对象持久性. WSGG 是其世界级扩展
  • vs 3D Scene Graphs: 静态 3D 场景图不处理时间维度. WSGG 加入了时空维度
  • 对具身智能 (embodied AI) 的导航和规划有重要参考价值

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 世界场景图是新任务定义, 填补了视频理解的重要空白
  • 实验充分度: ⭐⭐⭐⭐ 三种方法对比 + 数据集构建
  • 写作质量: ⭐⭐⭐⭐ 任务定义和三种方法对比清晰
  • 价值: ⭐⭐⭐⭐⭐ 对具身智能有重要意义