OCK: Unsupervised Dynamic Video Prediction with Object-Centric Kinematics¶

会议: ICCV 2025
arXiv: 2404.18423
代码: 无
领域: llm_efficiency (视频预测 / 对象中心表示学习)
关键词: 对象中心学习, 视频预测, 运动学建模, Slot Attention, 自回归 Transformer

一句话总结¶

提出 OCK（Object-Centric Kinematics），在以对象为中心的视频预测中引入显式的运动学属性（位置、速度、加速度）作为 Slot 表示的补充，通过 Joint-OCK 和 Cross-OCK 两种 Transformer 变体融合外观与运动信息，在复杂合成和真实场景中显著提升动态视频预测质量。

研究背景与动机¶

人类感知将复杂多物体场景分解为时间不变的外观（大小、形状、颜色）和时间变化的运动（位置、速度、加速度）。基于对象中心的 Transformer 视频预测方法（如 SlotFormer、OCVP）主要依赖 Slot Attention 提取的对象外观表示，存在以下问题：

忽略显式运动动力学：仅隐式学习运动变化，难以准确建模动态交互（如碰撞、加减速）

复杂场景中表现不佳：在包含多样物体外观、运动模式和背景的场景中（如 MOVi-C/D/E），现有方法预测质量下降甚至发散

长期预测泛化差：缺乏显式的运动学先验导致误差快速累积

方法详解¶

整体框架¶

OCK 由三个主要模块组成： 1. Slot 编码器：预训练的 SAVi 模型，将视频帧分解为对象 slot \(\mathcal{S}_t \in \mathbb{R}^{N \times D_{\text{slot}}}\) 2. 运动学编码器：从视频帧中提取对象运动学 \(\mathbf{K}_t \in \mathbb{R}^{N \times D_{\text{kin}}}\) 3. 自回归 OCK Transformer：融合 slot 和运动学信息，预测下一时间步的 slot

关键设计¶

Object Kinematics（对象运动学）：使用 CNN 提取低层图像特征后定位每个物体质心的 2D 坐标，构建三层运动学状态： \(\mathbf{K}_t = \begin{bmatrix} \mathbf{x}_t^{\text{pos}} \\ \mathbf{x}_t^{\text{vel}} \\ \mathbf{x}_t^{\text{acc}} \end{bmatrix} = \begin{bmatrix} \phi(\mathbf{o}_t) \\ \lambda(\mathbf{x}_t^{\text{pos}} - \mathbf{x}_{t-1}^{\text{pos}}) \\ \mathbf{x}_t^{\text{vel}} - \mathbf{x}_{t-1}^{\text{vel}} \end{bmatrix}\) 其中 \(\lambda\) 为可学习缩放参数。运动学在 2D 图像空间建模（避免 3D 深度估计的计算开销），且不依赖任务特定的损失函数。
两种运动学使用方式：
- 分析方法（Analytical）：根据当前运动学预测下一帧的位置 \(\mathbf{x}_{t+1}^{\text{pos}'} = \mathbf{x}_t^{\text{pos}} + \mathbf{x}_t^{\text{vel}} \times \delta\)，然后将当前和预测运动学一起送入 Transformer
- 经验方法（Empirical）：仅使用当前帧运动学，让 Transformer 隐式学习运动模式
两种 OCK Transformer 架构：
- Joint-OCK：将 slot 和运动学拼接后联合输入标准 Transformer 编码器进行自注意力
- Cross-OCK：使用交叉注意力机制，slot 作为 query，运动学作为 key/value，并引入温度参数 \(\tau\) 调节注意力校准：\(\text{Cross-OCK}(\mathbf{v}, \mathbf{k}, \mathbf{q}; \tau) = \mathbf{v} \cdot \text{softmax}(\frac{\mathbf{k}^\top \mathbf{q}}{\tau})\)

损失函数 / 训练策略¶

两阶段训练：先训练 SAVi 分解视频帧为 slot，再训练 OCK Transformer。

总损失 \(\mathcal{L} = \mathcal{L}_{\text{object}} + \alpha \mathcal{L}_{\text{image}}\)： - 对象重建损失：预测 slot 与 GT slot 的 L2 距离 - 图像重建损失：通过冻结的 SAVi 解码器将预测 slot 解码为图像，与 GT 帧的 L2 距离

训练设置为 6 帧输入预测 8 帧，使用时序位置编码保持对象间的置换等变性。

实验关键数据¶

主实验 (表格)¶

6 个合成数据集上的视频预测质量（从简单到复杂）：

模型	OBJ3D PSNR↑	MOVi-A PSNR↑	MOVi-C PSNR↑	MOVi-D PSNR↑	MOVi-E PSNR↑
SlotFormer	33.08	25.18	19.48	20.68	21.27
OCVP-Seq	33.10	26.24	17.95	发散	发散
Joint-OCK	35.13	27.26	21.04	22.09	22.39
Cross-OCK	34.10	27.58	21.04	22.34	22.34

真实场景 Waymo Open Dataset：

模型	PSNR↑	SSIM↑	LPIPS↓
SlotFormer	19.13	0.330	0.714
OCVP-Seq	18.98	0.329	0.718
Joint-OCK	25.02	0.798	0.251
Cross-OCK	25.98	0.728	0.220

消融实验 (表格)¶

Transformer 组件消融（MOVi-A）：

设置	PSNR↑	SSIM↑	LPIPS↓
Cross-OCK(A) 默认	27.58	0.812	0.123
输入帧=4	27.01	0.801	0.125
输入帧=8	27.12	0.806	0.125
Transformer 层=6	26.92	0.796	0.130
Transformer 层=8	26.50	0.784	0.133
普通位置编码	23.60	0.591	0.205
Teacher Forcing	23.58	0.589	0.207

关键发现¶

运动学的引入对复杂场景至关重要：在 MOVi-D/E 上 OCVP 完全发散，而 OCK 仍能正常预测
Waymo 真实场景上 OCK 比 SlotFormer PSNR 提升 ~6.9dB、LPIPS 降低 ~0.49
时序位置编码（保持置换等变性）极为关键，使用普通位置编码 PSNR 下降 4dB
Teacher Forcing 有害：让模型在训练时学会处理自身的不完美预测对长期泛化更重要
分析方法略优于经验方法，因为显式预测下一帧的运动状态提供了更准确的引导
6 帧输入即足以捕捉对象动力学，过多输入（8帧）反而略有下降

亮点与洞察¶

物理学启发：将经典运动学（位置-速度-加速度）引入对象中心学习，理念直观且有效
Cross-OCK 的设计精巧：slot 作为 query、运动学作为 key/value 的交叉注意力，在计算效率和性能间取得了良好平衡
长期泛化能力：仅用 6 帧训练，可泛化到 18 帧预测且误差增长缓慢
在真实驾驶场景（Waymo）上也展现出强大能力

局限与展望¶

运动学仅在 2D 图像空间建模，对 3D 遮挡和深度变化的处理有限
依赖 SAVi 预训练的 slot 编码器质量，复杂场景的 slot 分解可能不完美
未涉及旋转和缩放运动学，限制了对复杂运动的建模
对物体数量变化（出现/消失）的处理未讨论
可考虑引入物体间交互图（GNN）来显式建模碰撞等事件

评分¶

新颖性: ⭐⭐⭐⭐ 将经典运动学概念引入对象中心学习是自然但有效的创新
实验充分度: ⭐⭐⭐⭐ 7 个数据集（含真实场景），详尽的消融分析
写作质量: ⭐⭐⭐⭐ 结构清晰，两种方法（分析/经验）和两种架构（Joint/Cross）的对比系统
价值: ⭐⭐⭐⭐ 解决了对象中心视频预测在复杂场景中的关键瓶颈