MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer¶
会议: CVPR 2026
arXiv: 2508.14327
代码: 无
领域: 自动驾驶 / 视频生成
关键词: 多模态多视图视频生成, 扩散Transformer, 城市场景合成, 条件控制, CogVideoX
一句话总结¶
首个在统一 DiT 框架下同时生成 RGB+深度+语义三模态多视图驾驶场景视频的方法,通过模态共享层(时序+多视图时空注意力)与模态特定层(跨模态交互+投影头)的分解设计+统一布局编码器+多样化条件,在 nuScenes 上 FVD 46.8(较 CogVideoX+SyntheOcc 提升 22%),深度 AbsRel 0.110,语义 mIoU 37.5,均优于独立模型生成+估计的管线。
研究背景与动机¶
领域现状:自动驾驶场景视频生成发展迅速,MagicDrive、DriveDreamer、MaskGWM 等利用扩散模型实现了有前景的多视图 RGB 视频生成。然而这些方法仅关注单一 RGB 模态。
现有痛点:自动驾驶需要多模态数据(RGB + 深度 + 语义)做全面场景理解。虽可用多个独立模型分别生成不同模态(先生成 RGB 再用 Depth-Anything-V2 估深度),但增加部署难度且无法利用模态间互补信息,跨模态一致性差。
核心矛盾:如何在一个统一框架中同时生成多模态多视图驾驶视频?难点在于——(1) 不同模态内容差异大但共享底层场景结构,需区分共有和特有知识;(2) 多视图时空一致性和跨模态一致性需同时保证;(3) 复杂驾驶场景需精细条件控制。
本文目标 构建统一多模态多视图视频 DiT 模型,同时生成三种模态的 6 视图 49 帧视频,保证时空一致和跨模态一致。
切入角度:基于发现 CogVideoX 的共享 3D VAE 可处理不同模态视频,作者假设不同模态共享公共潜空间、仅需少量模态特定参数区分。这引出了模态共享+模态特定的分解设计。
核心 idea:统一 DiT 中模态共享层学公共时空结构 + 模态特定层学模态差异 + 多样化条件编码控制场景生成。
方法详解¶
整体框架¶
基于 CogVideoX(v1.1-2B)构建。输入三类条件(文本、上下文参考帧、布局),通过统一编码器提取嵌入并与噪声潜变量拼接,送入模态共享层+模态特定层组成的 DiT。共享 3D VAE 编解码所有模态。训练 DDPM 噪声调度,推理 DDIM + classifier-free guidance。默认 6 相机 × 49 帧 × 512×256 分辨率。
关键设计¶
-
多样化条件编码
- 功能:将文本、布局约束和参考帧编码为统一条件嵌入控制场景生成
- 核心思路:(a) 文本条件——相机内外参经 Fourier 编码 + MLP 编码器 \(E^\text{cam}\),视频描述通过冻结 T5 编码器 \(E^\text{text}\),拼接后通过 DiT 交叉注意力注入;(b) 布局条件——3D box 投影图 \(c^b\)、道路结构图 \(c^r\)、3D occupancy 稀疏语义图 \(c^o\),通过统一布局编码器(各条件独立因果 ResNet + 共享因果 ResNet)融合 \(f^\text{layout} = E_s^l(E_b^l(c^b) \otimes E_r^l(c^r) \otimes E_o^l(c^o))\);(c) 上下文参考——首帧通过 3D VAE 编码用于未来预测
- 设计动机:统一布局编码器实现隐式条件嵌入空间对齐,比多个独立编码器更有效
-
模态共享组件(时序+多视图时空块)
- 功能:学习所有模态共有的时序一致性和多视图空间结构
- 核心思路:(a) 时序注意力层 \(D^\text{tem}\)——CogVideoX 的 3D full attention 学帧间一致,文本通过交叉注意力注入,维度 \(\mathcal{R}^{V \times (NKW) \times C}\);(b) 多视图时空块 \(D^\text{st}\)——每 \(\alpha_1\) 层插入,含 3D 空间注意力(\(\mathcal{R}^{K \times (VHW) \times C}\) 跨视图结构)、Hash grid 3D 空间嵌入、全时空注意力(\(\mathcal{R}^{(VKHW) \times C}\) 全局)
- 设计动机:仅时序注意力无法保证多视图一致(FVD 153.7 → 加时空块后 46.8),多视图时空块显式建模跨视图空间关系
-
模态特定组件(跨模态交互+投影头)
- 功能:在共享表示基础上学各模态独有内容,保持跨模态对齐
- 核心思路:跨模态交互层每 \(\alpha_2\) 层插入,含自注意力 + 跨模态交叉注意力(query=当前模态 latent,key/value=其他模态 latent 拼接)+ FFN。模态特定投影头(线性层+自适应归一化)各模态独立预测噪声 \(h'_m = D_m^\text{cm}(h, h_m^\text{modal}, t)\)
- 设计动机:跨模态交叉注意力让不同模态交换互补信息,统一生成比独立生成+外部模型更高质量
损失函数 / 训练策略¶
- \(\mathcal{L} = \sum_m \lambda_m \mathbb{E}_{x_{0,m}, t_m, \epsilon_m, C} \|\epsilon_m - \epsilon_{\theta,m}(x_{t,m}, t_m, C)\|^2\),各模态加权
- AdamW,lr=2e-4;冻结 3D VAE 和 T5;conditioning dropout 增强泛化
- 深度 Ground Truth 由 Depth-Anything-V2 生成,语义由 Mask2Former 生成(非真实标注)
实验关键数据¶
主实验——nuScenes¶
| 方法 | 会议 | FVD↓ | mAP↑ | mIoU↑ | AbsRel↓ | Sem mIoU↑ |
|---|---|---|---|---|---|---|
| MagicDrive | ICLR24 | 236.2 | 9.7 | 15.6 | 0.255 | 23.5 |
| MagicDrive-V2 | ICCV25 | 112.7 | 11.5 | 17.4 | 0.280 | 22.4 |
| DriveDreamer-2 | AAAI25 | 55.7 | - | - | - | - |
| CogVideoX+SyntheOcc | - | 60.4 | 15.9 | 28.2 | 0.124 | 32.4 |
| MoVieDrive | - | 46.8 | 22.7 | 35.8 | 0.110 | 37.5 |
Waymo 数据集:MoVieDrive FVD 61.6 vs CogVideoX+SyntheOcc 82.3(提升 25%)。
消融实验——多模态生成¶
| 配置 | FVD↓ | AbsRel↓ | Sem mIoU↑ | 说明 |
|---|---|---|---|---|
| 仅 RGB + 外部模型估计 | 42.0 | 0.121 | 36.4 | RGB 最优但多模态质量差 |
| RGB+深度 统一 + 外部语义 | 43.4 | 0.111 | 36.0 | 深度质量提升 |
| RGB+深度+语义 全统一 | 46.8 | 0.110 | 37.5 | 最优多模态质量 |
消融实验——DiT 组件¶
| 组件 | FVD↓ | 说明 |
|---|---|---|
| L1 (仅时序层) | 153.7 | 无多视图一致性 |
| L1 + L3 (时序+模态特定) | 78.8 | 无跨视图空间学习 |
| L1 + L2 + L3 (完整) | 46.8 | 全部组件 |
| CogVideoX + 跨视图注意力 | 118.4 | 简单修改远不够 |
关键发现¶
- 多视图时空块是性能关键:去掉后 FVD 从 46.8 暴涨至 153.7(3.3× 劣化)
- 统一多模态生成的深度(AbsRel 0.110)和语义(mIoU 37.5)优于 RGB+外部模型估计(0.121/36.4),但 RGB FVD 微增(42.0→46.8),存在微小模态间干扰
- 统一布局编码器优于独立编码器(归因于隐式条件嵌入空间对齐)
- 简单在 CogVideoX 上加跨视图注意力 FVD 仍 118.4,远差于 MoVieDrive 的 46.8
亮点与洞察¶
- 首个多模态多视图统一生成框架——填补自动驾驶场景生成空白。模态共享+模态特定分解利用共享 3D VAE 公共潜空间假设,参数高效
- 跨模态交互层让不同模态间交换互补信息——统一生成不仅减少模型数量,还实际提升了深度和语义质量(比独立生成更好)
- 统一布局编码器设计优于多个独立编码器——隐式嵌入空间对齐融合多种布局条件,可推广到其他多条件控制生成任务
- 可扩展性好:支持长视频生成(无参考帧)和通过文本编辑不同天气/时间的场景
局限与展望¶
- 远处区域长视频生成仍有噪声,时序一致性在长视频中衰减
- 深度/语义 GT 来自预训练模型估计(Depth-Anything-V2/Mask2Former),非真实标注,训练信号质量有天花板
- 多模态生成略增 RGB FVD(42.0→46.8),需更好的模态间解耦策略
- 未扩展至 LiDAR 点云等 3D 模态
- 未与闭环仿真器结合,下游任务收益未量化
- 训练成本高(6 视图 × 49 帧 × 多模态),对计算资源要求大
相关工作与启发¶
- vs MagicDrive/MagicDrive-V2:仅生成 RGB,需额外模型获取深度/语义。MoVieDrive 统一生成且 FVD 大幅领先(46.8 vs 112.7/236.2),可控性(mAP 22.7 vs 11.5/9.7)全面超越
- vs UniScene (CVPR25):用多个模型分别生成 RGB 和 LiDAR,仍非统一模型。MoVieDrive 真正实现单模型多模态生成
- vs CogVideoX+SyntheOcc:最直接竞品。MoVieDrive 全指标一致领先(FVD 46.8 vs 60.4),证明需要专门的多模态多视图架构设计
评分¶
⭐⭐⭐⭐
- 新颖性 ⭐⭐⭐⭐:首个多模态多视图统一驾驶视频生成,分解设计合理
- 实验充分度 ⭐⭐⭐⭐:nuScenes + Waymo,多种消融,补充材料详尽
- 写作质量 ⭐⭐⭐⭐:结构清晰,方法详细,图表丰富
- 价值 ⭐⭐⭐⭐:为自动驾驶场景生成提供更完整解决方案
相关论文¶
- [CVPR 2026] Rethinking Position Embedding as a Context Controller for Multi-Reference and Multi-Shot Video Generation
- [CVPR 2026] Let Your Image Move with Your Motion! – Implicit Multi-Object Multi-Motion Transfer
- [CVPR 2026] StreamDiT: Real-Time Streaming Text-to-Video Generation
- [CVPR 2026] UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation
- [CVPR 2026] SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls