跳转至

MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer

会议: CVPR 2026 arXiv: 2508.14327 代码: 无 领域: 自动驾驶 关键词: 多模态视频生成, 多视图一致性, 扩散Transformer, 城市场景合成, 自动驾驶数据增强

一句话总结

MoVieDrive 提出统一的多模态多视图视频扩散 Transformer,通过 modal-shared + modal-specific 的双层架构设计,在单一模型中同时生成 RGB 视频、深度图和语义图,配合多样的条件输入(文本、布局、上下文参考),在 nuScenes 上取得 FVD 46.8(SOTA),同时实现跨模态一致的高质量驾驶场景合成。

研究背景与动机

  1. 领域现状:视频生成模型(SVD、CogVideoX)在通用视频生成上表现优异,但直接用于自动驾驶场景需要多视图时空一致性和高可控性。DriveDreamer、MagicDrive 等方法已探索多视图城市场景生成,但仅支持 RGB 单模态。

  2. 核心痛点:自动驾驶不仅需要 RGB 视频,还需要深度图和语义图来全面理解场景。现有方案用多个独立模型分别生成不同模态,导致:(a) 部署复杂度高;(b) 无法利用跨模态互补信息提升生成质量;(c) 模态间一致性无法保证。

  3. UniScene 的局限:UniScene 尝试同时生成 RGB 和 LiDAR,但仍然使用多个独立模型,未构建真正统一的多模态生成框架。

  4. 核心假设:不同模态(RGB、深度、语义)经过共享的 3D VAE 编码后共享公共隐空间,仅需少量模态特定组件区分它们——因此可以用一个统一模型完成多模态生成。

方法详解

整体框架

输入条件 → 条件编码器(文本/布局/上下文参考)→ 统一扩散 Transformer(modal-shared 层 + modal-specific 层)→ 噪声估计 → 共享 3D VAE 解码 → 多模态多视图视频输出。

核心思想:将多模态多视图场景生成分解为模态共享学习(时序一致性 + 多视图时空一致性)和模态特定学习(跨模态交互 + 投影),在统一框架内完成。

关键设计

  1. 多样条件输入编码
  2. 文本条件:相机内外参(Fourier embedding + MLP)和场景文本描述(冻结 T5 编码器)拼接得到 \(f^{text}\),通过 cross-attention 注入扩散模型
  3. 布局条件:三种细粒度控制信号——3D 框投影的 box map \(c^b\)、道路结构投影的 road map \(c^r\)、稀疏 3D occupancy 投影的 layout map \(c^o\)。创新点在于使用统一布局编码器(各条件独立 causal resnet block + 共享 causal resnet block)融合三种条件,避免多个独立编码器:\(f^{layout} = E_s^l(E_b^l(c^b) \otimes E_r^l(c^r) \otimes E_o^l(c^o))\)
  4. 上下文参考条件:可选的初始帧,用共享 3D VAE 编码(时序维度=1),用于未来场景预测
  5. 设计动机:不同条件控制不同粒度——文本控制全局风格,布局控制细粒度结构,参考帧提供初始上下文

  6. Modal-Shared 组件(时序层 + 多视图时空块)

  7. 时序注意力层 \(D^{tem}\):基于 CogVideoX 的 3D full attention,学习帧间时序一致性,文本条件通过 cross-attention 注入
  8. 多视图时空块 \(D^{st}\)(每 \(\alpha_1\) 个时序层后插入一次):包含四个子层:
    • 3D 空间嵌入层:多分辨率 Hash grid 编码 3D occupancy 位置 \(c^{occ}\),增强空间一致性
    • 3D 空间注意力:将 latent 维度变为 \(\mathcal{R}^{K \times (VHW) \times C}\),学习所有相机视图的 3D 空间结构
    • 时空注意力:维度变为 \(\mathcal{R}^{(VKHW) \times C}\),捕获完整的多视图时空信息
    • 前馈层:进一步变换特征
  9. 公式:\(h = D^{st}(D^{tem}(z', f^{text}, t), c^{occ}, t)\)

  10. Modal-Specific 组件(跨模态交互层 + 投影头)

  11. 跨模态交互层 \(D_m^{cm}\)(每 \(\alpha_2\) 个 modal-shared 层后插入):self-attention + cross-attention + FFN。Cross-attention 的 query 是当前模态的 latent,key/value 来自其他模态的 latent 拼接:\(h'_m = D_m^{cm}(h, h_m^{modal}, t)\)
  12. 模态特定投影头:线性层 + adaptive normalization,估计各模态的噪声 \(\epsilon\)
  13. 设计动机:通过跨模态注意力让不同模态互相提供互补信息,同时保持各模态的特异性特征

损失函数 / 训练策略

  • 训练目标:DDPM 噪声估计损失,对每个模态加权求和:\(\mathcal{L} = \sum_m^M \lambda_m \mathbb{E}_{x_{0,m}, t_m, \epsilon_m, C} \|\epsilon_m - \epsilon_{\theta,m}(x_{t,m}, t_m, C)\|^2\)
  • 条件 dropout:随机丢弃部分条件,增强泛化性和输出多样性
  • 推理:DDIM 采样器加速去噪 + classifier-free guidance 平衡多样性与条件一致性
  • 预训练策略:时序层和投影头用 CogVideoX 预训练权重初始化,其他层随机初始化。3D VAE 和 T5 编码器冻结
  • 默认设置:6 个相机,49 帧,分辨率 512×256

实验关键数据

主实验(nuScenes)

方法 FVD↓ mAP↑ mIoU↑ AbsRel↓ Sem-mIoU↑
DriveDreamer 340.8 - - - -
MagicDrive 236.2 9.7 15.6 0.255 23.5
MagicDrive-V2 112.7 11.5 17.4 0.280 22.4
CogVideoX+SyntheOcc 60.4 15.9 28.2 0.124 32.4
MoVieDrive 46.8 22.7 35.8 0.110 37.5
  • FVD 较最强基线(CogVideoX+SyntheOcc)提升 ~22%
  • 在可控性(mAP、mIoU)和多模态质量(AbsRel、Sem-mIoU)上全面领先

消融实验

配置 FVD↓ AbsRel↓ Sem-mIoU↑ 说明
RGB only + 外部模型做深度/语义 42.0 0.121 36.4 单模态生成 + 后处理
RGB+Depth 统一 + 外部语义 43.4 0.111 36.0 两模态统一有助深度
RGB+Depth+Semantic 全统一 46.8 0.110 37.5 三模态互补最优
Transformer 组件 FVD↓ 说明
仅时序层 (L1) 153.7 缺乏空间一致性
L1 + modal-specific (L3) 78.8 多模态区分有帮助
L1 + 多视图时空块 (L2) + L3 46.8 完整模型最优

关键发现

  • 统一模型优于多模型管线:三模态统一生成的深度和语义质量均优于先生成 RGB 再用独立模型估计的两阶段方案
  • 多视图时空块至关重要:移除后 FVD 从 46.8 暴涨到 78.8,跨视图一致性严重下降
  • 统一布局编码器优于独立 VAE 编码:隐式条件嵌入空间对齐带来性能提升
  • Waymo 泛化:在 Waymo 上也取得 FVD 61.6,优于 CogVideoX+SyntheOcc(82.3)
  • 长视频生成:无需参考帧即可生成长视频,保持场景布局和内容一致性

亮点与洞察

  • 统一多模态生成的开创性工作:首次在自动驾驶领域构建单一模型同时生成 RGB/深度/语义三模态多视图视频,填补了重要空白
  • "共享隐空间"假设验证成功:不同模态确实可以通过共享 3D VAE + 少量 modal-specific 层有效建模,这对多模态生成的架构设计有启示意义
  • 条件设计的工程质量高:三种层次的条件输入(全局文本、中粒度布局、初始帧参考)+ 统一布局编码器,使生成既可控又灵活
  • 支持场景风格编辑:通过修改文本 prompt 可生成不同时间/天气条件下的驾驶场景

局限性 / 可改进方向

  • 深度和语义伪标签质量有限:训练用的深度图来自 Depth-Anything-V2,语义图来自 Mask2Former,并非 GT。如有真实多模态标注,性能应更好
  • 远距离区域生成质量差:长视频生成时远距离区域出现噪声区域,可能因 3D VAE 的时序压缩丢失细节
  • 计算成本高:多模态统一意味着 modal-specific 层带来的额外参数和计算开销,论文未报告训练时间和推理速度
  • LiDAR 模态未涉及:仅支持 RGB/深度/语义三种视觉模态,未扩展到点云等 3D 传感数据
  • 改进方向:(a) 更高效的跨模态信息融合;(b) 扩展到更多模态(光流、法线图);(c) 与下游任务(3D 检测、规划)联合优化

相关工作与启发

  • vs MagicDrive/MagicDrive-V2:MagicDrive 系列用 box 坐标编码 + 独立条件处理;MoVieDrive 改用 2D box map 投影 + 统一布局编码器,更简洁且性能更好
  • vs UniScene:UniScene 用多个模型分别生成 RGB 和 LiDAR;MoVieDrive 真正实现单一模型多模态生成
  • vs CogVideoX+SyntheOcc:直接基线竞争者,MoVieDrive 在其基础上加入多视图时空块和跨模态交互层,FVD 提升 22%
  • 启发:modal-shared + modal-specific 的框架设计思想可推广到其他多模态生成任务;统一布局编码器的条件融合思路值得借鉴

评分

  • 新颖性: ⭐⭐⭐⭐ 首个统一多模态多视图驾驶场景生成框架,架构设计合理
  • 实验充分度: ⭐⭐⭐⭐ nuScenes + Waymo 双数据集,充分的消融和可视化分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法图信息量大,符号系统完整
  • 价值: ⭐⭐⭐⭐ 对自动驾驶数据合成有重要价值,统一多模态生成降低部署复杂度