MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer¶

会议: CVPR 2026 arXiv: 2508.14327 代码: 无领域: 自动驾驶 关键词: 多模态视频生成, 多视图一致性, 扩散Transformer, 城市场景合成, 自动驾驶数据增强

一句话总结¶

MoVieDrive 提出统一的多模态多视图视频扩散 Transformer，通过 modal-shared + modal-specific 的双层架构设计，在单一模型中同时生成 RGB 视频、深度图和语义图，配合多样的条件输入（文本、布局、上下文参考），在 nuScenes 上取得 FVD 46.8（SOTA），同时实现跨模态一致的高质量驾驶场景合成。

研究背景与动机¶

领域现状：视频生成模型（SVD、CogVideoX）在通用视频生成上表现优异，但直接用于自动驾驶场景需要多视图时空一致性和高可控性。DriveDreamer、MagicDrive 等方法已探索多视图城市场景生成，但仅支持 RGB 单模态。
核心痛点：自动驾驶不仅需要 RGB 视频，还需要深度图和语义图来全面理解场景。现有方案用多个独立模型分别生成不同模态，导致：(a) 部署复杂度高；(b) 无法利用跨模态互补信息提升生成质量；(c) 模态间一致性无法保证。
UniScene 的局限：UniScene 尝试同时生成 RGB 和 LiDAR，但仍然使用多个独立模型，未构建真正统一的多模态生成框架。
核心假设：不同模态（RGB、深度、语义）经过共享的 3D VAE 编码后共享公共隐空间，仅需少量模态特定组件区分它们——因此可以用一个统一模型完成多模态生成。

方法详解¶

整体框架¶

输入条件 → 条件编码器（文本/布局/上下文参考）→ 统一扩散 Transformer（modal-shared 层 + modal-specific 层）→ 噪声估计 → 共享 3D VAE 解码 → 多模态多视图视频输出。

核心思想：将多模态多视图场景生成分解为模态共享学习（时序一致性 + 多视图时空一致性）和模态特定学习（跨模态交互 + 投影），在统一框架内完成。

关键设计¶

多样条件输入编码：
文本条件：相机内外参（Fourier embedding + MLP）和场景文本描述（冻结 T5 编码器）拼接得到 \(f^{text}\)，通过 cross-attention 注入扩散模型
布局条件：三种细粒度控制信号——3D 框投影的 box map \(c^b\)、道路结构投影的 road map \(c^r\)、稀疏 3D occupancy 投影的 layout map \(c^o\)。创新点在于使用统一布局编码器（各条件独立 causal resnet block + 共享 causal resnet block）融合三种条件，避免多个独立编码器：\(f^{layout} = E_s^l(E_b^l(c^b) \otimes E_r^l(c^r) \otimes E_o^l(c^o))\)
上下文参考条件：可选的初始帧，用共享 3D VAE 编码（时序维度=1），用于未来场景预测
设计动机：不同条件控制不同粒度——文本控制全局风格，布局控制细粒度结构，参考帧提供初始上下文
Modal-Shared 组件（时序层 + 多视图时空块）：
时序注意力层 \(D^{tem}\)：基于 CogVideoX 的 3D full attention，学习帧间时序一致性，文本条件通过 cross-attention 注入
多视图时空块 \(D^{st}\)（每 \(\alpha_1\) 个时序层后插入一次）：包含四个子层：
- 3D 空间嵌入层：多分辨率 Hash grid 编码 3D occupancy 位置 \(c^{occ}\)，增强空间一致性
- 3D 空间注意力：将 latent 维度变为 \(\mathcal{R}^{K \times (VHW) \times C}\)，学习所有相机视图的 3D 空间结构
- 时空注意力：维度变为 \(\mathcal{R}^{(VKHW) \times C}\)，捕获完整的多视图时空信息
- 前馈层：进一步变换特征
公式：\(h = D^{st}(D^{tem}(z', f^{text}, t), c^{occ}, t)\)
Modal-Specific 组件（跨模态交互层 + 投影头）：
跨模态交互层 \(D_m^{cm}\)（每 \(\alpha_2\) 个 modal-shared 层后插入）：self-attention + cross-attention + FFN。Cross-attention 的 query 是当前模态的 latent，key/value 来自其他模态的 latent 拼接：\(h'_m = D_m^{cm}(h, h_m^{modal}, t)\)
模态特定投影头：线性层 + adaptive normalization，估计各模态的噪声 \(\epsilon\)
设计动机：通过跨模态注意力让不同模态互相提供互补信息，同时保持各模态的特异性特征

损失函数 / 训练策略¶

训练目标：DDPM 噪声估计损失，对每个模态加权求和：\(\mathcal{L} = \sum_m^M \lambda_m \mathbb{E}_{x_{0,m}, t_m, \epsilon_m, C} \|\epsilon_m - \epsilon_{\theta,m}(x_{t,m}, t_m, C)\|^2\)
条件 dropout：随机丢弃部分条件，增强泛化性和输出多样性
推理：DDIM 采样器加速去噪 + classifier-free guidance 平衡多样性与条件一致性
预训练策略：时序层和投影头用 CogVideoX 预训练权重初始化，其他层随机初始化。3D VAE 和 T5 编码器冻结
默认设置：6 个相机，49 帧，分辨率 512×256

实验关键数据¶

主实验（nuScenes）¶

方法	FVD↓	mAP↑	mIoU↑	AbsRel↓	Sem-mIoU↑
DriveDreamer	340.8	-	-	-	-
MagicDrive	236.2	9.7	15.6	0.255	23.5
MagicDrive-V2	112.7	11.5	17.4	0.280	22.4
CogVideoX+SyntheOcc	60.4	15.9	28.2	0.124	32.4
MoVieDrive	46.8	22.7	35.8	0.110	37.5

FVD 较最强基线（CogVideoX+SyntheOcc）提升 ~22%
在可控性（mAP、mIoU）和多模态质量（AbsRel、Sem-mIoU）上全面领先

消融实验¶

配置	FVD↓	AbsRel↓	Sem-mIoU↑	说明
RGB only + 外部模型做深度/语义	42.0	0.121	36.4	单模态生成 + 后处理
RGB+Depth 统一 + 外部语义	43.4	0.111	36.0	两模态统一有助深度
RGB+Depth+Semantic 全统一	46.8	0.110	37.5	三模态互补最优

Transformer 组件	FVD↓	说明
仅时序层 (L1)	153.7	缺乏空间一致性
L1 + modal-specific (L3)	78.8	多模态区分有帮助
L1 + 多视图时空块 (L2) + L3	46.8	完整模型最优

关键发现¶

统一模型优于多模型管线：三模态统一生成的深度和语义质量均优于先生成 RGB 再用独立模型估计的两阶段方案
多视图时空块至关重要：移除后 FVD 从 46.8 暴涨到 78.8，跨视图一致性严重下降
统一布局编码器优于独立 VAE 编码：隐式条件嵌入空间对齐带来性能提升
Waymo 泛化：在 Waymo 上也取得 FVD 61.6，优于 CogVideoX+SyntheOcc（82.3）
长视频生成：无需参考帧即可生成长视频，保持场景布局和内容一致性

亮点与洞察¶

统一多模态生成的开创性工作：首次在自动驾驶领域构建单一模型同时生成 RGB/深度/语义三模态多视图视频，填补了重要空白
"共享隐空间"假设验证成功：不同模态确实可以通过共享 3D VAE + 少量 modal-specific 层有效建模，这对多模态生成的架构设计有启示意义
条件设计的工程质量高：三种层次的条件输入（全局文本、中粒度布局、初始帧参考）+ 统一布局编码器，使生成既可控又灵活
支持场景风格编辑：通过修改文本 prompt 可生成不同时间/天气条件下的驾驶场景

局限性 / 可改进方向¶

深度和语义伪标签质量有限：训练用的深度图来自 Depth-Anything-V2，语义图来自 Mask2Former，并非 GT。如有真实多模态标注，性能应更好
远距离区域生成质量差：长视频生成时远距离区域出现噪声区域，可能因 3D VAE 的时序压缩丢失细节
计算成本高：多模态统一意味着 modal-specific 层带来的额外参数和计算开销，论文未报告训练时间和推理速度
LiDAR 模态未涉及：仅支持 RGB/深度/语义三种视觉模态，未扩展到点云等 3D 传感数据
改进方向：(a) 更高效的跨模态信息融合；(b) 扩展到更多模态（光流、法线图）；(c) 与下游任务（3D 检测、规划）联合优化

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一多模态多视图驾驶场景生成框架，架构设计合理
实验充分度: ⭐⭐⭐⭐ nuScenes + Waymo 双数据集，充分的消融和可视化分析
写作质量: ⭐⭐⭐⭐ 结构清晰，方法图信息量大，符号系统完整
价值: ⭐⭐⭐⭐ 对自动驾驶数据合成有重要价值，统一多模态生成降低部署复杂度