跳转至

MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer

会议: CVPR 2026
arXiv: 2508.14327
代码: 无
领域: 自动驾驶 / 视频生成
关键词: 多模态多视图视频生成, 扩散Transformer, 城市场景合成, 条件控制, CogVideoX

一句话总结

首个在统一 DiT 框架下同时生成 RGB+深度+语义三模态多视图驾驶场景视频的方法,通过模态共享层(时序+多视图时空注意力)与模态特定层(跨模态交互+投影头)的分解设计+统一布局编码器+多样化条件,在 nuScenes 上 FVD 46.8(较 CogVideoX+SyntheOcc 提升 22%),深度 AbsRel 0.110,语义 mIoU 37.5,均优于独立模型生成+估计的管线。

研究背景与动机

领域现状:自动驾驶场景视频生成发展迅速,MagicDrive、DriveDreamer、MaskGWM 等利用扩散模型实现了有前景的多视图 RGB 视频生成。然而这些方法仅关注单一 RGB 模态。

现有痛点:自动驾驶需要多模态数据(RGB + 深度 + 语义)做全面场景理解。虽可用多个独立模型分别生成不同模态(先生成 RGB 再用 Depth-Anything-V2 估深度),但增加部署难度且无法利用模态间互补信息,跨模态一致性差。

核心矛盾:如何在一个统一框架中同时生成多模态多视图驾驶视频?难点在于——(1) 不同模态内容差异大但共享底层场景结构,需区分共有和特有知识;(2) 多视图时空一致性和跨模态一致性需同时保证;(3) 复杂驾驶场景需精细条件控制。

本文目标 构建统一多模态多视图视频 DiT 模型,同时生成三种模态的 6 视图 49 帧视频,保证时空一致和跨模态一致。

切入角度:基于发现 CogVideoX 的共享 3D VAE 可处理不同模态视频,作者假设不同模态共享公共潜空间、仅需少量模态特定参数区分。这引出了模态共享+模态特定的分解设计。

核心 idea:统一 DiT 中模态共享层学公共时空结构 + 模态特定层学模态差异 + 多样化条件编码控制场景生成。

方法详解

整体框架

基于 CogVideoX(v1.1-2B)构建。输入三类条件(文本、上下文参考帧、布局),通过统一编码器提取嵌入并与噪声潜变量拼接,送入模态共享层+模态特定层组成的 DiT。共享 3D VAE 编解码所有模态。训练 DDPM 噪声调度,推理 DDIM + classifier-free guidance。默认 6 相机 × 49 帧 × 512×256 分辨率。

关键设计

  1. 多样化条件编码

    • 功能:将文本、布局约束和参考帧编码为统一条件嵌入控制场景生成
    • 核心思路:(a) 文本条件——相机内外参经 Fourier 编码 + MLP 编码器 \(E^\text{cam}\),视频描述通过冻结 T5 编码器 \(E^\text{text}\),拼接后通过 DiT 交叉注意力注入;(b) 布局条件——3D box 投影图 \(c^b\)、道路结构图 \(c^r\)、3D occupancy 稀疏语义图 \(c^o\),通过统一布局编码器(各条件独立因果 ResNet + 共享因果 ResNet)融合 \(f^\text{layout} = E_s^l(E_b^l(c^b) \otimes E_r^l(c^r) \otimes E_o^l(c^o))\);(c) 上下文参考——首帧通过 3D VAE 编码用于未来预测
    • 设计动机:统一布局编码器实现隐式条件嵌入空间对齐,比多个独立编码器更有效
  2. 模态共享组件(时序+多视图时空块)

    • 功能:学习所有模态共有的时序一致性和多视图空间结构
    • 核心思路:(a) 时序注意力层 \(D^\text{tem}\)——CogVideoX 的 3D full attention 学帧间一致,文本通过交叉注意力注入,维度 \(\mathcal{R}^{V \times (NKW) \times C}\);(b) 多视图时空块 \(D^\text{st}\)——每 \(\alpha_1\) 层插入,含 3D 空间注意力(\(\mathcal{R}^{K \times (VHW) \times C}\) 跨视图结构)、Hash grid 3D 空间嵌入、全时空注意力(\(\mathcal{R}^{(VKHW) \times C}\) 全局)
    • 设计动机:仅时序注意力无法保证多视图一致(FVD 153.7 → 加时空块后 46.8),多视图时空块显式建模跨视图空间关系
  3. 模态特定组件(跨模态交互+投影头)

    • 功能:在共享表示基础上学各模态独有内容,保持跨模态对齐
    • 核心思路:跨模态交互层每 \(\alpha_2\) 层插入,含自注意力 + 跨模态交叉注意力(query=当前模态 latent,key/value=其他模态 latent 拼接)+ FFN。模态特定投影头(线性层+自适应归一化)各模态独立预测噪声 \(h'_m = D_m^\text{cm}(h, h_m^\text{modal}, t)\)
    • 设计动机:跨模态交叉注意力让不同模态交换互补信息,统一生成比独立生成+外部模型更高质量

损失函数 / 训练策略

  • \(\mathcal{L} = \sum_m \lambda_m \mathbb{E}_{x_{0,m}, t_m, \epsilon_m, C} \|\epsilon_m - \epsilon_{\theta,m}(x_{t,m}, t_m, C)\|^2\),各模态加权
  • AdamW,lr=2e-4;冻结 3D VAE 和 T5;conditioning dropout 增强泛化
  • 深度 Ground Truth 由 Depth-Anything-V2 生成,语义由 Mask2Former 生成(非真实标注)

实验关键数据

主实验——nuScenes

方法 会议 FVD↓ mAP↑ mIoU↑ AbsRel↓ Sem mIoU↑
MagicDrive ICLR24 236.2 9.7 15.6 0.255 23.5
MagicDrive-V2 ICCV25 112.7 11.5 17.4 0.280 22.4
DriveDreamer-2 AAAI25 55.7 - - - -
CogVideoX+SyntheOcc - 60.4 15.9 28.2 0.124 32.4
MoVieDrive - 46.8 22.7 35.8 0.110 37.5

Waymo 数据集:MoVieDrive FVD 61.6 vs CogVideoX+SyntheOcc 82.3(提升 25%)。

消融实验——多模态生成

配置 FVD↓ AbsRel↓ Sem mIoU↑ 说明
仅 RGB + 外部模型估计 42.0 0.121 36.4 RGB 最优但多模态质量差
RGB+深度 统一 + 外部语义 43.4 0.111 36.0 深度质量提升
RGB+深度+语义 全统一 46.8 0.110 37.5 最优多模态质量

消融实验——DiT 组件

组件 FVD↓ 说明
L1 (仅时序层) 153.7 无多视图一致性
L1 + L3 (时序+模态特定) 78.8 无跨视图空间学习
L1 + L2 + L3 (完整) 46.8 全部组件
CogVideoX + 跨视图注意力 118.4 简单修改远不够

关键发现

  • 多视图时空块是性能关键:去掉后 FVD 从 46.8 暴涨至 153.7(3.3× 劣化)
  • 统一多模态生成的深度(AbsRel 0.110)和语义(mIoU 37.5)优于 RGB+外部模型估计(0.121/36.4),但 RGB FVD 微增(42.0→46.8),存在微小模态间干扰
  • 统一布局编码器优于独立编码器(归因于隐式条件嵌入空间对齐)
  • 简单在 CogVideoX 上加跨视图注意力 FVD 仍 118.4,远差于 MoVieDrive 的 46.8

亮点与洞察

  • 首个多模态多视图统一生成框架——填补自动驾驶场景生成空白。模态共享+模态特定分解利用共享 3D VAE 公共潜空间假设,参数高效
  • 跨模态交互层让不同模态间交换互补信息——统一生成不仅减少模型数量,还实际提升了深度和语义质量(比独立生成更好)
  • 统一布局编码器设计优于多个独立编码器——隐式嵌入空间对齐融合多种布局条件,可推广到其他多条件控制生成任务
  • 可扩展性好:支持长视频生成(无参考帧)和通过文本编辑不同天气/时间的场景

局限与展望

  • 远处区域长视频生成仍有噪声,时序一致性在长视频中衰减
  • 深度/语义 GT 来自预训练模型估计(Depth-Anything-V2/Mask2Former),非真实标注,训练信号质量有天花板
  • 多模态生成略增 RGB FVD(42.0→46.8),需更好的模态间解耦策略
  • 未扩展至 LiDAR 点云等 3D 模态
  • 未与闭环仿真器结合,下游任务收益未量化
  • 训练成本高(6 视图 × 49 帧 × 多模态),对计算资源要求大

相关工作与启发

  • vs MagicDrive/MagicDrive-V2:仅生成 RGB,需额外模型获取深度/语义。MoVieDrive 统一生成且 FVD 大幅领先(46.8 vs 112.7/236.2),可控性(mAP 22.7 vs 11.5/9.7)全面超越
  • vs UniScene (CVPR25):用多个模型分别生成 RGB 和 LiDAR,仍非统一模型。MoVieDrive 真正实现单模型多模态生成
  • vs CogVideoX+SyntheOcc:最直接竞品。MoVieDrive 全指标一致领先(FVD 46.8 vs 60.4),证明需要专门的多模态多视图架构设计

评分

⭐⭐⭐⭐

  • 新颖性 ⭐⭐⭐⭐:首个多模态多视图统一驾驶视频生成,分解设计合理
  • 实验充分度 ⭐⭐⭐⭐:nuScenes + Waymo,多种消融,补充材料详尽
  • 写作质量 ⭐⭐⭐⭐:结构清晰,方法详细,图表丰富
  • 价值 ⭐⭐⭐⭐:为自动驾驶场景生成提供更完整解决方案

相关论文