Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos¶

会议: CVPR 2026
arXiv: 2603.13185
代码: 暂无
领域: 3D视觉 / 场景理解
关键词: world scene graph, spatio-temporal, object permanence, 4D reconstruction, video understanding

一句话总结¶

提出世界场景图生成 (WSGG) 任务——从单目视频生成以世界坐标系为锚定的时空场景图 (包含被遮挡物体), 构建 ActionGenome4D 数据集, 并设计三种方法 (PWG/MWAE/4DST) 探索不同归纳偏置, 4DST 用时间 Transformer 取得最佳 R@10 66.40%.

研究背景与动机¶

领域现状: 现有视频场景图以帧为中心, 物体离开视野就丢失, 不维护世界级别的持久对象.
现有痛点: (a) 帧中心场景图无法推理被遮挡或暂时不可见的物体; (b) 缺少 3D 锚定, 无法在世界坐标系中定位对象; (c) 没有现有数据集支持世界级场景图评估.
核心idea一句话: 世界场景图=世界坐标系 3D 边界框 + 物体持久性 + 包含不可见对象的关系图.

方法详解¶

关键设计¶

ActionGenome4D 数据集: 用 3D 重建 + GDINO 检测 + SAM2 分割 + VLM 伪标注构建, 包含可见和不可见对象的 3D OBB
PWG (Permanence World Graph): 最后已知状态零阶缓冲器 + 过时追踪
MWAE (Masked World Auto-Encoder): 掩码补全 + 关联检索器推理不可见对象
4DST (4D Spatio-Temporal): 时间 Transformer 替代静态缓冲, 效果最佳
共享组件: 全局结构编码器, 空间 GNN, 时间边注意力, 相机位姿编码

实验关键数据¶

主实验: ActionGenome4D (PredCls, DINOv2-L)¶

方法	R@10	R@20	R@50
PWG	65.07%	67.99%	68.00%
MWAE	65.33%	68.30%	68.31%
4DST	66.40%	69.15%	69.16%

关键发现¶

时间 Transformer (4DST) 优于静态缓冲 (PWG) 和掩码补全 (MWAE)
VLM 伪标签对不可见对象关系建模至关重要
世界级锚定使得 3D 几何脚手架能推理暂时不可见的对象

亮点与洞察¶

物体持久性是新范式: 不是帧级检测, 而是维护世界中所有对象的持续状态
3D 几何脚手架的价值: 即使暂时看不到, 3D 重建让模型知道对象在哪里
三种方法提供不同视角: 缓冲 vs 补全 vs 注意力, 时间注意力最有效

局限性 / 可改进方向¶

数据集构建依赖 3D 重建质量, 重建失败会影响标注准确性
评估指标沿用 2D 场景图指标 (R@K), 可能不完全适合 3D 世界场景
目前仅处理静态场景中的动态对象, 未考虑场景本身的变化
VLM 伪标签可能引入系统性偏差
三种方法差距不大 (R@10: 65-66%), 说明任务本身还有很大提升空间

评分¶

新颖性: ⭐⭐⭐⭐⭐ 世界场景图是新任务定义, 填补了视频理解的重要空白
实验充分度: ⭐⭐⭐⭐ 三种方法对比 + 数据集构建
写作质量: ⭐⭐⭐⭐ 任务定义和三种方法对比清晰
价值: ⭐⭐⭐⭐⭐ 对具身智能有重要意义