MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer¶
会议: CVPR 2026 arXiv: 2508.14327 代码: 无 领域: 自动驾驶 关键词: 多模态视频生成, 多视图一致性, 扩散Transformer, 城市场景合成, 自动驾驶数据增强
一句话总结¶
MoVieDrive 提出统一的多模态多视图视频扩散 Transformer,通过 modal-shared + modal-specific 的双层架构设计,在单一模型中同时生成 RGB 视频、深度图和语义图,配合多样的条件输入(文本、布局、上下文参考),在 nuScenes 上取得 FVD 46.8(SOTA),同时实现跨模态一致的高质量驾驶场景合成。
研究背景与动机¶
-
领域现状:视频生成模型(SVD、CogVideoX)在通用视频生成上表现优异,但直接用于自动驾驶场景需要多视图时空一致性和高可控性。DriveDreamer、MagicDrive 等方法已探索多视图城市场景生成,但仅支持 RGB 单模态。
-
核心痛点:自动驾驶不仅需要 RGB 视频,还需要深度图和语义图来全面理解场景。现有方案用多个独立模型分别生成不同模态,导致:(a) 部署复杂度高;(b) 无法利用跨模态互补信息提升生成质量;(c) 模态间一致性无法保证。
-
UniScene 的局限:UniScene 尝试同时生成 RGB 和 LiDAR,但仍然使用多个独立模型,未构建真正统一的多模态生成框架。
-
核心假设:不同模态(RGB、深度、语义)经过共享的 3D VAE 编码后共享公共隐空间,仅需少量模态特定组件区分它们——因此可以用一个统一模型完成多模态生成。
方法详解¶
整体框架¶
输入条件 → 条件编码器(文本/布局/上下文参考)→ 统一扩散 Transformer(modal-shared 层 + modal-specific 层)→ 噪声估计 → 共享 3D VAE 解码 → 多模态多视图视频输出。
核心思想:将多模态多视图场景生成分解为模态共享学习(时序一致性 + 多视图时空一致性)和模态特定学习(跨模态交互 + 投影),在统一框架内完成。
关键设计¶
- 多样条件输入编码:
- 文本条件:相机内外参(Fourier embedding + MLP)和场景文本描述(冻结 T5 编码器)拼接得到 \(f^{text}\),通过 cross-attention 注入扩散模型
- 布局条件:三种细粒度控制信号——3D 框投影的 box map \(c^b\)、道路结构投影的 road map \(c^r\)、稀疏 3D occupancy 投影的 layout map \(c^o\)。创新点在于使用统一布局编码器(各条件独立 causal resnet block + 共享 causal resnet block)融合三种条件,避免多个独立编码器:\(f^{layout} = E_s^l(E_b^l(c^b) \otimes E_r^l(c^r) \otimes E_o^l(c^o))\)
- 上下文参考条件:可选的初始帧,用共享 3D VAE 编码(时序维度=1),用于未来场景预测
-
设计动机:不同条件控制不同粒度——文本控制全局风格,布局控制细粒度结构,参考帧提供初始上下文
-
Modal-Shared 组件(时序层 + 多视图时空块):
- 时序注意力层 \(D^{tem}\):基于 CogVideoX 的 3D full attention,学习帧间时序一致性,文本条件通过 cross-attention 注入
- 多视图时空块 \(D^{st}\)(每 \(\alpha_1\) 个时序层后插入一次):包含四个子层:
- 3D 空间嵌入层:多分辨率 Hash grid 编码 3D occupancy 位置 \(c^{occ}\),增强空间一致性
- 3D 空间注意力:将 latent 维度变为 \(\mathcal{R}^{K \times (VHW) \times C}\),学习所有相机视图的 3D 空间结构
- 时空注意力:维度变为 \(\mathcal{R}^{(VKHW) \times C}\),捕获完整的多视图时空信息
- 前馈层:进一步变换特征
-
公式:\(h = D^{st}(D^{tem}(z', f^{text}, t), c^{occ}, t)\)
-
Modal-Specific 组件(跨模态交互层 + 投影头):
- 跨模态交互层 \(D_m^{cm}\)(每 \(\alpha_2\) 个 modal-shared 层后插入):self-attention + cross-attention + FFN。Cross-attention 的 query 是当前模态的 latent,key/value 来自其他模态的 latent 拼接:\(h'_m = D_m^{cm}(h, h_m^{modal}, t)\)
- 模态特定投影头:线性层 + adaptive normalization,估计各模态的噪声 \(\epsilon\)
- 设计动机:通过跨模态注意力让不同模态互相提供互补信息,同时保持各模态的特异性特征
损失函数 / 训练策略¶
- 训练目标:DDPM 噪声估计损失,对每个模态加权求和:\(\mathcal{L} = \sum_m^M \lambda_m \mathbb{E}_{x_{0,m}, t_m, \epsilon_m, C} \|\epsilon_m - \epsilon_{\theta,m}(x_{t,m}, t_m, C)\|^2\)
- 条件 dropout:随机丢弃部分条件,增强泛化性和输出多样性
- 推理:DDIM 采样器加速去噪 + classifier-free guidance 平衡多样性与条件一致性
- 预训练策略:时序层和投影头用 CogVideoX 预训练权重初始化,其他层随机初始化。3D VAE 和 T5 编码器冻结
- 默认设置:6 个相机,49 帧,分辨率 512×256
实验关键数据¶
主实验(nuScenes)¶
| 方法 | FVD↓ | mAP↑ | mIoU↑ | AbsRel↓ | Sem-mIoU↑ |
|---|---|---|---|---|---|
| DriveDreamer | 340.8 | - | - | - | - |
| MagicDrive | 236.2 | 9.7 | 15.6 | 0.255 | 23.5 |
| MagicDrive-V2 | 112.7 | 11.5 | 17.4 | 0.280 | 22.4 |
| CogVideoX+SyntheOcc | 60.4 | 15.9 | 28.2 | 0.124 | 32.4 |
| MoVieDrive | 46.8 | 22.7 | 35.8 | 0.110 | 37.5 |
- FVD 较最强基线(CogVideoX+SyntheOcc)提升 ~22%
- 在可控性(mAP、mIoU)和多模态质量(AbsRel、Sem-mIoU)上全面领先
消融实验¶
| 配置 | FVD↓ | AbsRel↓ | Sem-mIoU↑ | 说明 |
|---|---|---|---|---|
| RGB only + 外部模型做深度/语义 | 42.0 | 0.121 | 36.4 | 单模态生成 + 后处理 |
| RGB+Depth 统一 + 外部语义 | 43.4 | 0.111 | 36.0 | 两模态统一有助深度 |
| RGB+Depth+Semantic 全统一 | 46.8 | 0.110 | 37.5 | 三模态互补最优 |
| Transformer 组件 | FVD↓ | 说明 |
|---|---|---|
| 仅时序层 (L1) | 153.7 | 缺乏空间一致性 |
| L1 + modal-specific (L3) | 78.8 | 多模态区分有帮助 |
| L1 + 多视图时空块 (L2) + L3 | 46.8 | 完整模型最优 |
关键发现¶
- 统一模型优于多模型管线:三模态统一生成的深度和语义质量均优于先生成 RGB 再用独立模型估计的两阶段方案
- 多视图时空块至关重要:移除后 FVD 从 46.8 暴涨到 78.8,跨视图一致性严重下降
- 统一布局编码器优于独立 VAE 编码:隐式条件嵌入空间对齐带来性能提升
- Waymo 泛化:在 Waymo 上也取得 FVD 61.6,优于 CogVideoX+SyntheOcc(82.3)
- 长视频生成:无需参考帧即可生成长视频,保持场景布局和内容一致性
亮点与洞察¶
- 统一多模态生成的开创性工作:首次在自动驾驶领域构建单一模型同时生成 RGB/深度/语义三模态多视图视频,填补了重要空白
- "共享隐空间"假设验证成功:不同模态确实可以通过共享 3D VAE + 少量 modal-specific 层有效建模,这对多模态生成的架构设计有启示意义
- 条件设计的工程质量高:三种层次的条件输入(全局文本、中粒度布局、初始帧参考)+ 统一布局编码器,使生成既可控又灵活
- 支持场景风格编辑:通过修改文本 prompt 可生成不同时间/天气条件下的驾驶场景
局限性 / 可改进方向¶
- 深度和语义伪标签质量有限:训练用的深度图来自 Depth-Anything-V2,语义图来自 Mask2Former,并非 GT。如有真实多模态标注,性能应更好
- 远距离区域生成质量差:长视频生成时远距离区域出现噪声区域,可能因 3D VAE 的时序压缩丢失细节
- 计算成本高:多模态统一意味着 modal-specific 层带来的额外参数和计算开销,论文未报告训练时间和推理速度
- LiDAR 模态未涉及:仅支持 RGB/深度/语义三种视觉模态,未扩展到点云等 3D 传感数据
- 改进方向:(a) 更高效的跨模态信息融合;(b) 扩展到更多模态(光流、法线图);(c) 与下游任务(3D 检测、规划)联合优化
相关工作与启发¶
- vs MagicDrive/MagicDrive-V2:MagicDrive 系列用 box 坐标编码 + 独立条件处理;MoVieDrive 改用 2D box map 投影 + 统一布局编码器,更简洁且性能更好
- vs UniScene:UniScene 用多个模型分别生成 RGB 和 LiDAR;MoVieDrive 真正实现单一模型多模态生成
- vs CogVideoX+SyntheOcc:直接基线竞争者,MoVieDrive 在其基础上加入多视图时空块和跨模态交互层,FVD 提升 22%
- 启发:modal-shared + modal-specific 的框架设计思想可推广到其他多模态生成任务;统一布局编码器的条件融合思路值得借鉴
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个统一多模态多视图驾驶场景生成框架,架构设计合理
- 实验充分度: ⭐⭐⭐⭐ nuScenes + Waymo 双数据集,充分的消融和可视化分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法图信息量大,符号系统完整
- 价值: ⭐⭐⭐⭐ 对自动驾驶数据合成有重要价值,统一多模态生成降低部署复杂度