跳转至

MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer

会议: CVPR 2026
arXiv: 2508.14327
代码: 无
领域: 视频生成 / 自动驾驶
关键词: 多模态多视图视频生成, 扩散Transformer, 城市场景合成, 自动驾驶, 条件控制

一句话总结

提出 MoVieDrive,首个在统一框架下实现多模态(RGB+深度+语义)多视图自动驾驶场景视频生成的扩散 Transformer 方法,通过模态共享层+模态特定层的设计和多样化条件编码,在 nuScenes 上 FVD 达到 46.8(领先 SOTA 22%),同时生成高质量的深度图和语义图。

背景与动机

现有自动驾驶场景视频生成方法(DriveDreamer、MagicDrive 等)仅关注 RGB 视频生成,缺乏深度图、语义图等多模态数据生成能力。而多模态数据对自动驾驶的全面场景理解至关重要。虽然可以用多个独立模型分别生成不同模态,但这增加部署难度且无法利用模态间的互补信息。

核心问题

如何在一个统一的生成框架中同时生成多模态(RGB、深度、语义)多视图驾驶场景视频,保证多视图时空一致性和跨模态一致性?

方法详解

整体框架

基于 CogVideoX (v1.1-2B) 构建,输入多样化条件(文本、上下文参考帧、布局条件),通过统一 DiT 模型生成多模态多视图视频,共享 3D VAE 编解码器处理所有模态。

关键设计

  1. 多样化条件编码: 三类条件输入:
  2. 文本条件:相机内外参 Fourier 编码 + MLP 相机编码器 + T5 冻结文本编码器
  3. 布局条件:3D box 投影图 + 道路结构图 + 3D occupancy 稀疏语义图,通过统一布局编码器(各条件独立因果 ResNet + 共享因果 ResNet)融合
  4. 上下文参考条件:首帧图像通过 3D VAE 编码,用于未来场景预测

  5. 模态共享组件:

  6. 时序注意力层:CogVideoX 的 3D full attention 学习帧间一致性,文本条件通过交叉注意力注入
  7. 多视图时空块:3D 空间注意力层(跨视图空间结构学习)+ Hash grid 3D 空间嵌入 + 全时空注意力层(\(V \times K \times H \times W\) 全局注意力),每 \(\alpha_1\) 层插入一次

  8. 模态特定组件:

  9. 跨模态交互层:自注意力 + 跨模态交叉注意力(query=当前模态 latent,key/value=其他模态 latent 拼接)+ FFN,每 \(\alpha_2\) 层插入
  10. 模态特定投影头:线性层+自适应归一化,各模态独立预测噪声

  11. 共享 3D VAE: 所有模态(RGB、深度、语义)使用同一个预训练 CogVideoX 3D VAE 编解码,无需为不同模态训练不同 VAE——基于不同模态共享公共潜空间的假设。

损失函数 / 训练策略

  • 训练损失:\(\mathcal{L} = \sum_m \lambda_m \|\epsilon_m - \epsilon_{\theta,m}\|^2\),各模态加权
  • DDPM 噪声调度训练,DDIM 采样推理 + classifier-free guidance
  • AdamW,lr=2e-4,6 视图 × 49 帧 × 512×256 分辨率
  • 冻结 3D VAE 和 T5 编码器,联合训练其他组件

实验关键数据

nuScenes 主实验

方法 FVD ↓ mAP ↑ mIoU ↑ AbsRel ↓ Sem mIoU ↑
MagicDrive 236.2 9.7 15.6 0.255 23.5
MagicDrive-V2 112.7 11.5 17.4 0.280 22.4
CogVideoX+SyntheOcc 60.4 15.9 28.2 0.124 32.4
MoVieDrive 46.8 22.7 35.8 0.110 37.5

FVD 较直接竞品 CogVideoX+SyntheOcc 提升 22%,可控性 mAP/mIoU 大幅领先。

Waymo 数据集

方法 FVD ↓
CogVideoX+SyntheOcc 82.3
MoVieDrive 61.6

消融实验要点

  • 多模态联合 vs 独立生成:统一生成(FVD 46.8, AbsRel 0.110)优于 RGB 生成+外部模型估计(FVD 42.0, AbsRel 0.121),深度和语义质量显著提升
  • DiT 组件:仅时序层 FVD 153.7 → +多视图时空块 46.8,证明多视图时空块对跨视图一致性至关重要
  • 统一布局编码器 vs 独立编码器:统一编码器 mAP 22.7 > 独立编码器
  • vs 简单 CogVideoX 修改:添加交叉视图注意力到 CogVideoX FVD 118.4,远差于 MoVieDrive 的 46.8

亮点

  • 首个多模态多视图统一生成:填补了自动驾驶场景生成领域的空白——之前没有方法能在统一框架下同时生成 RGB、深度和语义多视图视频
  • 模态共享+模态特定分解:利用共享 3D VAE 的公共潜空间假设,仅用少量模态特定参数区分模态,参数高效
  • 跨模态交互设计:模态间通过交叉注意力交换信息,实现互补增益——统一生成比独立生成+外部模型更好
  • 可扩展性:支持长视频生成(无参考帧)和通过文本编辑生成不同天气/时间条件的场景

局限性 / 可改进方向

  • 远处区域长视频生成仍有噪声区域
  • 未与闭环自动驾驶仿真器结合
  • 未扩展至 LiDAR 点云生成
  • 深度和语义的"ground truth"来自预训练模型估计,非真实标注
  • 多模态生成略微增加了 RGB 的 FVD(42.0 → 46.8),存在微小的模态间干扰

与相关工作的对比

  • vs MagicDrive/MagicDrive-V2: MagicDrive 系列仅生成 RGB,需用额外模型获取深度/语义;MoVieDrive 统一生成,且 FVD 和可控性全面领先
  • vs UniScene: UniScene 用多个模型分别生成 RGB 和 LiDAR;MoVieDrive 用统一模型
  • vs CogVideoX+SyntheOcc: 直接竞品,MoVieDrive 在所有指标上一致领先,证明不是简单的 CogVideoX 修改

启发与关联

  • 模态共享+模态特定的 DiT 分解设计可以推广到其他多模态生成任务(如同时生成图像和视频、RGB 和光流等)
  • 跨模态交互层的设计思想可用于多模态 VLM 的特征融合

评分

  • 新颖性: ⭐⭐⭐⭐ 首个多模态多视图统一驾驶视频生成,模态共享/特定分解设计合理
  • 实验充分度: ⭐⭐⭐⭐ nuScenes + Waymo 验证,多种消融和对比分析,补充材料详尽
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细
  • 价值: ⭐⭐⭐⭐ 为自动驾驶场景生成提供了更完整的解决方案