Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos¶
会议: CVPR 2026
arXiv: 2603.13185
代码: 暂无
领域: 3D视觉 / 场景理解
关键词: world scene graph, spatio-temporal, object permanence, 4D reconstruction, video understanding
一句话总结¶
提出世界场景图生成 (WSGG) 任务——从单目视频生成以世界坐标系为锚定的时空场景图 (包含被遮挡物体), 构建 ActionGenome4D 数据集, 并设计三种方法 (PWG/MWAE/4DST) 探索不同归纳偏置, 4DST 用时间 Transformer 取得最佳 R@10 66.40%.
研究背景与动机¶
- 领域现状: 现有视频场景图以帧为中心, 物体离开视野就丢失, 不维护世界级别的持久对象.
- 现有痛点: (a) 帧中心场景图无法推理被遮挡或暂时不可见的物体; (b) 缺少 3D 锚定, 无法在世界坐标系中定位对象; (c) 没有现有数据集支持世界级场景图评估.
- 核心idea一句话: 世界场景图=世界坐标系 3D 边界框 + 物体持久性 + 包含不可见对象的关系图.
方法详解¶
关键设计¶
- ActionGenome4D 数据集: 用 3D 重建 + GDINO 检测 + SAM2 分割 + VLM 伪标注构建, 包含可见和不可见对象的 3D OBB
- PWG (Permanence World Graph): 最后已知状态零阶缓冲器 + 过时追踪
- MWAE (Masked World Auto-Encoder): 掩码补全 + 关联检索器推理不可见对象
- 4DST (4D Spatio-Temporal): 时间 Transformer 替代静态缓冲, 效果最佳
- 共享组件: 全局结构编码器, 空间 GNN, 时间边注意力, 相机位姿编码
实验关键数据¶
主实验: ActionGenome4D (PredCls, DINOv2-L)¶
| 方法 | R@10 | R@20 | R@50 |
|---|---|---|---|
| PWG | 65.07% | 67.99% | 68.00% |
| MWAE | 65.33% | 68.30% | 68.31% |
| 4DST | 66.40% | 69.15% | 69.16% |
关键发现¶
- 时间 Transformer (4DST) 优于静态缓冲 (PWG) 和掩码补全 (MWAE)
- VLM 伪标签对不可见对象关系建模至关重要
- 世界级锚定使得 3D 几何脚手架能推理暂时不可见的对象
亮点与洞察¶
- 物体持久性是新范式: 不是帧级检测, 而是维护世界中所有对象的持续状态
- 3D 几何脚手架的价值: 即使暂时看不到, 3D 重建让模型知道对象在哪里
- 三种方法提供不同视角: 缓冲 vs 补全 vs 注意力, 时间注意力最有效
局限性 / 可改进方向¶
- 数据集构建依赖 3D 重建质量, 重建失败会影响标注准确性
- 评估指标沿用 2D 场景图指标 (R@K), 可能不完全适合 3D 世界场景
- 目前仅处理静态场景中的动态对象, 未考虑场景本身的变化
- VLM 伪标签可能引入系统性偏差
- 三种方法差距不大 (R@10: 65-66%), 说明任务本身还有很大提升空间
相关工作与启发¶
- vs ActionGenome: 帧级场景图, 不维护世界坐标和对象持久性. WSGG 是其世界级扩展
- vs 3D Scene Graphs: 静态 3D 场景图不处理时间维度. WSGG 加入了时空维度
- 对具身智能 (embodied AI) 的导航和规划有重要参考价值
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 世界场景图是新任务定义, 填补了视频理解的重要空白
- 实验充分度: ⭐⭐⭐⭐ 三种方法对比 + 数据集构建
- 写作质量: ⭐⭐⭐⭐ 任务定义和三种方法对比清晰
- 价值: ⭐⭐⭐⭐⭐ 对具身智能有重要意义