MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer¶

会议: CVPR 2026
arXiv: 2508.14327
代码: 无
领域: 自动驾驶 / 视频生成
关键词: 多模态多视图视频生成, 扩散Transformer, 城市场景合成, 条件控制, CogVideoX

一句话总结¶

首个在统一 DiT 框架下同时生成 RGB+深度+语义三模态多视图驾驶场景视频的方法，通过模态共享层（时序+多视图时空注意力）与模态特定层（跨模态交互+投影头）的分解设计+统一布局编码器+多样化条件，在 nuScenes 上 FVD 46.8（较 CogVideoX+SyntheOcc 提升 22%），深度 AbsRel 0.110，语义 mIoU 37.5，均优于独立模型生成+估计的管线。

研究背景与动机¶

领域现状：自动驾驶场景视频生成发展迅速，MagicDrive、DriveDreamer、MaskGWM 等利用扩散模型实现了有前景的多视图 RGB 视频生成。然而这些方法仅关注单一 RGB 模态。

现有痛点：自动驾驶需要多模态数据（RGB + 深度 + 语义）做全面场景理解。虽可用多个独立模型分别生成不同模态（先生成 RGB 再用 Depth-Anything-V2 估深度），但增加部署难度且无法利用模态间互补信息，跨模态一致性差。

核心矛盾：如何在一个统一框架中同时生成多模态多视图驾驶视频？难点在于——(1) 不同模态内容差异大但共享底层场景结构，需区分共有和特有知识；(2) 多视图时空一致性和跨模态一致性需同时保证；(3) 复杂驾驶场景需精细条件控制。

本文目标 构建统一多模态多视图视频 DiT 模型，同时生成三种模态的 6 视图 49 帧视频，保证时空一致和跨模态一致。

切入角度：基于发现 CogVideoX 的共享 3D VAE 可处理不同模态视频，作者假设不同模态共享公共潜空间、仅需少量模态特定参数区分。这引出了模态共享+模态特定的分解设计。

核心 idea：统一 DiT 中模态共享层学公共时空结构 + 模态特定层学模态差异 + 多样化条件编码控制场景生成。

方法详解¶

整体框架¶

基于 CogVideoX（v1.1-2B）构建。输入三类条件（文本、上下文参考帧、布局），通过统一编码器提取嵌入并与噪声潜变量拼接，送入模态共享层+模态特定层组成的 DiT。共享 3D VAE 编解码所有模态。训练 DDPM 噪声调度，推理 DDIM + classifier-free guidance。默认 6 相机 × 49 帧 × 512×256 分辨率。

关键设计¶

多样化条件编码
- 功能：将文本、布局约束和参考帧编码为统一条件嵌入控制场景生成
- 核心思路：(a) 文本条件——相机内外参经 Fourier 编码 + MLP 编码器 \(E^\text{cam}\)，视频描述通过冻结 T5 编码器 \(E^\text{text}\)，拼接后通过 DiT 交叉注意力注入；(b) 布局条件——3D box 投影图 \(c^b\)、道路结构图 \(c^r\)、3D occupancy 稀疏语义图 \(c^o\)，通过统一布局编码器（各条件独立因果 ResNet + 共享因果 ResNet）融合 \(f^\text{layout} = E_s^l(E_b^l(c^b) \otimes E_r^l(c^r) \otimes E_o^l(c^o))\)；(c) 上下文参考——首帧通过 3D VAE 编码用于未来预测
- 设计动机：统一布局编码器实现隐式条件嵌入空间对齐，比多个独立编码器更有效
模态共享组件（时序+多视图时空块）
- 功能：学习所有模态共有的时序一致性和多视图空间结构
- 核心思路：(a) 时序注意力层 \(D^\text{tem}\)——CogVideoX 的 3D full attention 学帧间一致，文本通过交叉注意力注入，维度 \(\mathcal{R}^{V \times (NKW) \times C}\)；(b) 多视图时空块 \(D^\text{st}\)——每 \(\alpha_1\) 层插入，含 3D 空间注意力（\(\mathcal{R}^{K \times (VHW) \times C}\) 跨视图结构）、Hash grid 3D 空间嵌入、全时空注意力（\(\mathcal{R}^{(VKHW) \times C}\) 全局）
- 设计动机：仅时序注意力无法保证多视图一致（FVD 153.7 → 加时空块后 46.8），多视图时空块显式建模跨视图空间关系
模态特定组件（跨模态交互+投影头）
- 功能：在共享表示基础上学各模态独有内容，保持跨模态对齐
- 核心思路：跨模态交互层每 \(\alpha_2\) 层插入，含自注意力 + 跨模态交叉注意力（query=当前模态 latent，key/value=其他模态 latent 拼接）+ FFN。模态特定投影头（线性层+自适应归一化）各模态独立预测噪声 \(h'_m = D_m^\text{cm}(h, h_m^\text{modal}, t)\)
- 设计动机：跨模态交叉注意力让不同模态交换互补信息，统一生成比独立生成+外部模型更高质量

损失函数 / 训练策略¶

\(\mathcal{L} = \sum_m \lambda_m \mathbb{E}_{x_{0,m}, t_m, \epsilon_m, C} \|\epsilon_m - \epsilon_{\theta,m}(x_{t,m}, t_m, C)\|^2\)，各模态加权
AdamW，lr=2e-4；冻结 3D VAE 和 T5；conditioning dropout 增强泛化
深度 Ground Truth 由 Depth-Anything-V2 生成，语义由 Mask2Former 生成（非真实标注）

实验关键数据¶

主实验——nuScenes¶

方法	会议	FVD↓	mAP↑	mIoU↑	AbsRel↓	Sem mIoU↑
MagicDrive	ICLR24	236.2	9.7	15.6	0.255	23.5
MagicDrive-V2	ICCV25	112.7	11.5	17.4	0.280	22.4
DriveDreamer-2	AAAI25	55.7	-	-	-	-
CogVideoX+SyntheOcc	-	60.4	15.9	28.2	0.124	32.4
MoVieDrive	-	46.8	22.7	35.8	0.110	37.5

Waymo 数据集：MoVieDrive FVD 61.6 vs CogVideoX+SyntheOcc 82.3（提升 25%）。

消融实验——多模态生成¶

配置	FVD↓	AbsRel↓	Sem mIoU↑	说明
仅 RGB + 外部模型估计	42.0	0.121	36.4	RGB 最优但多模态质量差
RGB+深度统一 + 外部语义	43.4	0.111	36.0	深度质量提升
RGB+深度+语义全统一	46.8	0.110	37.5	最优多模态质量

消融实验——DiT 组件¶

组件	FVD↓	说明
L1 (仅时序层)	153.7	无多视图一致性
L1 + L3 (时序+模态特定)	78.8	无跨视图空间学习
L1 + L2 + L3 (完整)	46.8	全部组件
CogVideoX + 跨视图注意力	118.4	简单修改远不够

关键发现¶

多视图时空块是性能关键：去掉后 FVD 从 46.8 暴涨至 153.7（3.3× 劣化）
统一多模态生成的深度（AbsRel 0.110）和语义（mIoU 37.5）优于 RGB+外部模型估计（0.121/36.4），但 RGB FVD 微增（42.0→46.8），存在微小模态间干扰
统一布局编码器优于独立编码器（归因于隐式条件嵌入空间对齐）
简单在 CogVideoX 上加跨视图注意力 FVD 仍 118.4，远差于 MoVieDrive 的 46.8

亮点与洞察¶

首个多模态多视图统一生成框架——填补自动驾驶场景生成空白。模态共享+模态特定分解利用共享 3D VAE 公共潜空间假设，参数高效
跨模态交互层让不同模态间交换互补信息——统一生成不仅减少模型数量，还实际提升了深度和语义质量（比独立生成更好）
统一布局编码器设计优于多个独立编码器——隐式嵌入空间对齐融合多种布局条件，可推广到其他多条件控制生成任务
可扩展性好：支持长视频生成（无参考帧）和通过文本编辑不同天气/时间的场景

局限与展望¶

远处区域长视频生成仍有噪声，时序一致性在长视频中衰减
深度/语义 GT 来自预训练模型估计（Depth-Anything-V2/Mask2Former），非真实标注，训练信号质量有天花板
多模态生成略增 RGB FVD（42.0→46.8），需更好的模态间解耦策略
未扩展至 LiDAR 点云等 3D 模态
未与闭环仿真器结合，下游任务收益未量化
训练成本高（6 视图 × 49 帧 × 多模态），对计算资源要求大

评分¶

⭐⭐⭐⭐

新颖性 ⭐⭐⭐⭐：首个多模态多视图统一驾驶视频生成，分解设计合理
实验充分度 ⭐⭐⭐⭐：nuScenes + Waymo，多种消融，补充材料详尽
写作质量 ⭐⭐⭐⭐：结构清晰，方法详细，图表丰富
价值 ⭐⭐⭐⭐：为自动驾驶场景生成提供更完整解决方案