SyncVP: Joint Diffusion for Synchronous Multi-Modal Video Prediction¶

会议: CVPR 2025
arXiv: 2503.18933
代码: https://SyncVp.github.io/
领域: 图像生成
关键词: 多模态视频预测, 联合扩散, 跨模态注意力, 噪声共享, 深度预测

一句话总结¶

提出 SyncVP 多模态视频预测框架，使用双分支扩散模型通过高效时空跨模态注意力同步生成 RGB+深度未来帧，创新地使用共享噪声和跨模态引导训练策略，在 Cityscapes 上达到 SOTA 且支持部分模态输入。

研究背景与动机¶

领域现状：视频预测是自动驾驶、天气预报等决策系统的关键任务。现有方法主要预测单模态（RGB）未来帧，扩散模型已成为该领域的主导范式。
现有痛点：仅预测 RGB 帧无法完全捕获真实世界动态的复杂性。多模态信息（深度、语义）可以提供互补线索，但现有多模态生成工作（LDM3D、MM-Diffusion）未针对视频预测设计，且简单拼接模态效果差。
核心矛盾：RGB 和深度等模态特性差异巨大（RGB 含丰富的外观细节，深度含几何结构），单一网络难以同时学习两者的复杂度。
本文目标：构建可扩展的多模态视频预测框架，支持双模态和部分模态输入。
切入角度：用两个预训练的模态特定扩散模型作为初始化，通过轻量跨模态注意力建立模态间信息交换。
核心 idea：双分支扩散 + 时空分离跨模态注意力 + 共享噪声 + 跨模态引导训练。

方法详解¶

整体框架¶

SyncVP 包含两个分支（RGB 和深度），每个分支是基于 PVDM 架构的小型 UNet。两分支通过时空跨模态注意力 (STCA) 模块在最深层连接。训练分两步：先独立预训练各模态扩散模型，再用共享噪声联合微调。推理时以 8 帧为单位自回归生成。

关键设计¶

时空分离跨模态注意力 (STCA)
- 功能：高效地在 RGB 和深度特征之间交换时空信息
- 核心思路：PVDM 的 latent 分为空间向量 \(z^s\)、高度-时间向量 \(z^h\)、宽度-时间向量 \(z^w\)。STCA 不在整个 latent 上做完整 cross-attention（计算开销大），而是分别对三个向量对做跨模态注意力，且共享一个注意力矩阵 \(A = Q_R Q_D^\top / \sqrt{d_k}\)：RGB 用 \(\text{Softmax}(A) \cdot V_D\) 获取深度信息，深度用 \(\text{Softmax}(A^\top) \cdot V_R\) 获取 RGB 信息。在 64×64 分辨率下仅需完整 CA 的 37% 计算量。
- 设计动机：全尺寸 cross-attention 在视频序列上计算开销过大；时空分离利用了 PVDM latent 的结构特性
共享噪声 (Shared Noise)
- 功能：确保多模态扩散过程同步，加速训练收敛
- 核心思路：在前向扩散过程中，两个模态使用完全相同的噪声样本 \(\epsilon\)。即对 RGB 和深度的 latent 施加相同的 \(\epsilon \sim \mathcal{N}(0, I)\)，使得两个去噪网络学习相同的"噪声→数据"逆变换。两个分支的损失函数中目标噪声相同：\(\mathcal{L}_M = \|\epsilon - \epsilon_{\theta_R}(\cdot)\|_2^2 + \|\epsilon - \epsilon_{\theta_D}(\cdot)\|_2^2\)。
- 设计动机：两个模态描述的是同一物理场景，共享噪声强制学习一致的逆过程，实验中显著改善了收敛速度和条件生成质量
跨模态引导训练 (Cross-Modality Guidance)
- 功能：使模型支持只有部分模态输入时也能预测完整多模态输出
- 核心思路：类比 classifier-free guidance，训练时以 50% 概率输入双模态条件，各 25% 概率只输入 RGB 或只输入深度（另一个用零替代）。同时学习三个分布：\(p(r_x, d_x | r_c, d_c)\)、\(p(r_x, d_x | 0, d_c)\)、\(p(r_x, d_x | r_c, 0)\)。
- 设计动机：现实场景中可能只有部分传感器可用（如自动驾驶中深度传感器故障），模型需要鲁棒处理部分输入

损失函数 / 训练策略¶

各模态独立预训练：标准 DDPM 损失
联合微调：\(\mathcal{L}_M = \mathbb{E}[\|\epsilon - \epsilon_{\theta_R}(\cdot)\|_2^2 + \|\epsilon - \epsilon_{\theta_D}(\cdot)\|_2^2]\)
DDPM 1000 步训练，DDIM 100 步推理
每个分支仅 58M 参数（PVDM-L 的 11%）

实验关键数据¶

主实验（Cityscapes, 2→28）¶

方法	FVD↓	SSIM↑	LPIPS↓
ExtDM-K4	121.3	0.745	108
STDiff	107.31	0.658	136.26
SyncVP (w/o depth)	97.31	0.652	161.1
SyncVP	84	0.649	159.7

消融实验¶

配置	FVD↓	说明
Full SyncVP	84	完整模型
简单拼接模态	~130	朴素方案失效
w/o 共享噪声	~110	收敛慢、一致性差
普通 CA 替代 STCA	~95	效率低且效果略差
w/o 跨模态引导	~90	无法处理部分输入

关键发现¶

共享噪声是最关键的设计——去掉后 FVD 恶化 ~30%
多模态信息（深度）确实改善了 RGB 预测质量（FVD 从 97 降至 84）
STCA 比普通 CA 计算效率高 50% 且效果更好
在 SYNTHIA（语义）和 ERA5-Land（气候数据）上验证了框架对其他模态的泛化性
即使只有单模态输入，SyncVP 仍超越单模态 SOTA

亮点与洞察¶

共享噪声是一个简单但深刻的洞察——同一场景的不同模态表征应该从相同的"混沌状态"出发恢复，大幅简化了学习难度
时空分离跨模态注意力利用了 PVDM latent 的结构，在降低计算复杂度的同时保持效果
跨模态引导巧妙地借鉴了 classifier-free guidance 的思路用于模态缺失场景

局限与展望¶

仅验证了两种模态的组合，三模态以上的扩展性待测试
自回归生成长视频时可能累积误差
当前仅在小分辨率（64×64/128×128）上验证
未来可探索与大规模视频扩散模型的结合

评分¶

新颖性: ⭐⭐⭐⭐ 首个多模态视频预测扩散框架，共享噪声策略巧妙
实验充分度: ⭐⭐⭐⭐ 三个数据集+多模态类型+详尽消融
写作质量: ⭐⭐⭐⭐ 框架清晰，消融设计合理
价值: ⭐⭐⭐⭐ 开辟多模态视频预测新方向，框架设计通用可扩展