MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer¶
会议: CVPR 2026
arXiv: 2508.14327
代码: 无
领域: 视频生成 / 自动驾驶
关键词: 多模态多视图视频生成, 扩散Transformer, 城市场景合成, 自动驾驶, 条件控制
一句话总结¶
提出 MoVieDrive,首个在统一框架下实现多模态(RGB+深度+语义)多视图自动驾驶场景视频生成的扩散 Transformer 方法,通过模态共享层+模态特定层的设计和多样化条件编码,在 nuScenes 上 FVD 达到 46.8(领先 SOTA 22%),同时生成高质量的深度图和语义图。
背景与动机¶
现有自动驾驶场景视频生成方法(DriveDreamer、MagicDrive 等)仅关注 RGB 视频生成,缺乏深度图、语义图等多模态数据生成能力。而多模态数据对自动驾驶的全面场景理解至关重要。虽然可以用多个独立模型分别生成不同模态,但这增加部署难度且无法利用模态间的互补信息。
核心问题¶
如何在一个统一的生成框架中同时生成多模态(RGB、深度、语义)多视图驾驶场景视频,保证多视图时空一致性和跨模态一致性?
方法详解¶
整体框架¶
基于 CogVideoX (v1.1-2B) 构建,输入多样化条件(文本、上下文参考帧、布局条件),通过统一 DiT 模型生成多模态多视图视频,共享 3D VAE 编解码器处理所有模态。
关键设计¶
- 多样化条件编码: 三类条件输入:
- 文本条件:相机内外参 Fourier 编码 + MLP 相机编码器 + T5 冻结文本编码器
- 布局条件:3D box 投影图 + 道路结构图 + 3D occupancy 稀疏语义图,通过统一布局编码器(各条件独立因果 ResNet + 共享因果 ResNet)融合
-
上下文参考条件:首帧图像通过 3D VAE 编码,用于未来场景预测
-
模态共享组件:
- 时序注意力层:CogVideoX 的 3D full attention 学习帧间一致性,文本条件通过交叉注意力注入
-
多视图时空块:3D 空间注意力层(跨视图空间结构学习)+ Hash grid 3D 空间嵌入 + 全时空注意力层(\(V \times K \times H \times W\) 全局注意力),每 \(\alpha_1\) 层插入一次
-
模态特定组件:
- 跨模态交互层:自注意力 + 跨模态交叉注意力(query=当前模态 latent,key/value=其他模态 latent 拼接)+ FFN,每 \(\alpha_2\) 层插入
-
模态特定投影头:线性层+自适应归一化,各模态独立预测噪声
-
共享 3D VAE: 所有模态(RGB、深度、语义)使用同一个预训练 CogVideoX 3D VAE 编解码,无需为不同模态训练不同 VAE——基于不同模态共享公共潜空间的假设。
损失函数 / 训练策略¶
- 训练损失:\(\mathcal{L} = \sum_m \lambda_m \|\epsilon_m - \epsilon_{\theta,m}\|^2\),各模态加权
- DDPM 噪声调度训练,DDIM 采样推理 + classifier-free guidance
- AdamW,lr=2e-4,6 视图 × 49 帧 × 512×256 分辨率
- 冻结 3D VAE 和 T5 编码器,联合训练其他组件
实验关键数据¶
nuScenes 主实验¶
| 方法 | FVD ↓ | mAP ↑ | mIoU ↑ | AbsRel ↓ | Sem mIoU ↑ |
|---|---|---|---|---|---|
| MagicDrive | 236.2 | 9.7 | 15.6 | 0.255 | 23.5 |
| MagicDrive-V2 | 112.7 | 11.5 | 17.4 | 0.280 | 22.4 |
| CogVideoX+SyntheOcc | 60.4 | 15.9 | 28.2 | 0.124 | 32.4 |
| MoVieDrive | 46.8 | 22.7 | 35.8 | 0.110 | 37.5 |
FVD 较直接竞品 CogVideoX+SyntheOcc 提升 22%,可控性 mAP/mIoU 大幅领先。
Waymo 数据集¶
| 方法 | FVD ↓ |
|---|---|
| CogVideoX+SyntheOcc | 82.3 |
| MoVieDrive | 61.6 |
消融实验要点¶
- 多模态联合 vs 独立生成:统一生成(FVD 46.8, AbsRel 0.110)优于 RGB 生成+外部模型估计(FVD 42.0, AbsRel 0.121),深度和语义质量显著提升
- DiT 组件:仅时序层 FVD 153.7 → +多视图时空块 46.8,证明多视图时空块对跨视图一致性至关重要
- 统一布局编码器 vs 独立编码器:统一编码器 mAP 22.7 > 独立编码器
- vs 简单 CogVideoX 修改:添加交叉视图注意力到 CogVideoX FVD 118.4,远差于 MoVieDrive 的 46.8
亮点¶
- 首个多模态多视图统一生成:填补了自动驾驶场景生成领域的空白——之前没有方法能在统一框架下同时生成 RGB、深度和语义多视图视频
- 模态共享+模态特定分解:利用共享 3D VAE 的公共潜空间假设,仅用少量模态特定参数区分模态,参数高效
- 跨模态交互设计:模态间通过交叉注意力交换信息,实现互补增益——统一生成比独立生成+外部模型更好
- 可扩展性:支持长视频生成(无参考帧)和通过文本编辑生成不同天气/时间条件的场景
局限性 / 可改进方向¶
- 远处区域长视频生成仍有噪声区域
- 未与闭环自动驾驶仿真器结合
- 未扩展至 LiDAR 点云生成
- 深度和语义的"ground truth"来自预训练模型估计,非真实标注
- 多模态生成略微增加了 RGB 的 FVD(42.0 → 46.8),存在微小的模态间干扰
与相关工作的对比¶
- vs MagicDrive/MagicDrive-V2: MagicDrive 系列仅生成 RGB,需用额外模型获取深度/语义;MoVieDrive 统一生成,且 FVD 和可控性全面领先
- vs UniScene: UniScene 用多个模型分别生成 RGB 和 LiDAR;MoVieDrive 用统一模型
- vs CogVideoX+SyntheOcc: 直接竞品,MoVieDrive 在所有指标上一致领先,证明不是简单的 CogVideoX 修改
启发与关联¶
- 模态共享+模态特定的 DiT 分解设计可以推广到其他多模态生成任务(如同时生成图像和视频、RGB 和光流等)
- 跨模态交互层的设计思想可用于多模态 VLM 的特征融合
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个多模态多视图统一驾驶视频生成,模态共享/特定分解设计合理
- 实验充分度: ⭐⭐⭐⭐ nuScenes + Waymo 验证,多种消融和对比分析,补充材料详尽
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细
- 价值: ⭐⭐⭐⭐ 为自动驾驶场景生成提供了更完整的解决方案