MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer¶

会议: CVPR 2026
arXiv: 2508.14327
代码: 无
领域: 视频生成 / 自动驾驶
关键词: 多模态多视图视频生成, 扩散Transformer, 城市场景合成, 自动驾驶, 条件控制

一句话总结¶

提出 MoVieDrive，首个在统一框架下实现多模态（RGB+深度+语义）多视图自动驾驶场景视频生成的扩散 Transformer 方法，通过模态共享层+模态特定层的设计和多样化条件编码，在 nuScenes 上 FVD 达到 46.8（领先 SOTA 22%），同时生成高质量的深度图和语义图。

现有自动驾驶场景视频生成方法（DriveDreamer、MagicDrive 等）仅关注 RGB 视频生成，缺乏深度图、语义图等多模态数据生成能力。而多模态数据对自动驾驶的全面场景理解至关重要。虽然可以用多个独立模型分别生成不同模态，但这增加部署难度且无法利用模态间的互补信息。

如何在一个统一的生成框架中同时生成多模态（RGB、深度、语义）多视图驾驶场景视频，保证多视图时空一致性和跨模态一致性？

基于 CogVideoX (v1.1-2B) 构建，输入多样化条件（文本、上下文参考帧、布局条件），通过统一 DiT 模型生成多模态多视图视频，共享 3D VAE 编解码器处理所有模态。

多样化条件编码: 三类条件输入：
文本条件：相机内外参 Fourier 编码 + MLP 相机编码器 + T5 冻结文本编码器
布局条件：3D box 投影图 + 道路结构图 + 3D occupancy 稀疏语义图，通过统一布局编码器（各条件独立因果 ResNet + 共享因果 ResNet）融合
上下文参考条件：首帧图像通过 3D VAE 编码，用于未来场景预测
模态共享组件:
时序注意力层：CogVideoX 的 3D full attention 学习帧间一致性，文本条件通过交叉注意力注入
多视图时空块：3D 空间注意力层（跨视图空间结构学习）+ Hash grid 3D 空间嵌入 + 全时空注意力层（\(V \times K \times H \times W\) 全局注意力），每 \(\alpha_1\) 层插入一次
模态特定组件:
跨模态交互层：自注意力 + 跨模态交叉注意力（query=当前模态 latent，key/value=其他模态 latent 拼接）+ FFN，每 \(\alpha_2\) 层插入
模态特定投影头：线性层+自适应归一化，各模态独立预测噪声
共享 3D VAE: 所有模态（RGB、深度、语义）使用同一个预训练 CogVideoX 3D VAE 编解码，无需为不同模态训练不同 VAE——基于不同模态共享公共潜空间的假设。

训练损失：\(\mathcal{L} = \sum_m \lambda_m \|\epsilon_m - \epsilon_{\theta,m}\|^2\)，各模态加权
DDPM 噪声调度训练，DDIM 采样推理 + classifier-free guidance
AdamW，lr=2e-4，6 视图 × 49 帧 × 512×256 分辨率
冻结 3D VAE 和 T5 编码器，联合训练其他组件

方法	FVD ↓	mAP ↑	mIoU ↑	AbsRel ↓	Sem mIoU ↑
MagicDrive	236.2	9.7	15.6	0.255	23.5
MagicDrive-V2	112.7	11.5	17.4	0.280	22.4
CogVideoX+SyntheOcc	60.4	15.9	28.2	0.124	32.4
MoVieDrive	46.8	22.7	35.8	0.110	37.5

FVD 较直接竞品 CogVideoX+SyntheOcc 提升 22%，可控性 mAP/mIoU 大幅领先。

方法	FVD ↓
CogVideoX+SyntheOcc	82.3
MoVieDrive	61.6

多模态联合 vs 独立生成：统一生成（FVD 46.8, AbsRel 0.110）优于 RGB 生成+外部模型估计（FVD 42.0, AbsRel 0.121），深度和语义质量显著提升
DiT 组件：仅时序层 FVD 153.7 → +多视图时空块 46.8，证明多视图时空块对跨视图一致性至关重要
统一布局编码器 vs 独立编码器：统一编码器 mAP 22.7 > 独立编码器
vs 简单 CogVideoX 修改：添加交叉视图注意力到 CogVideoX FVD 118.4，远差于 MoVieDrive 的 46.8

vs MagicDrive/MagicDrive-V2: MagicDrive 系列仅生成 RGB，需用额外模型获取深度/语义；MoVieDrive 统一生成，且 FVD 和可控性全面领先
vs UniScene: UniScene 用多个模型分别生成 RGB 和 LiDAR；MoVieDrive 用统一模型
vs CogVideoX+SyntheOcc: 直接竞品，MoVieDrive 在所有指标上一致领先，证明不是简单的 CogVideoX 修改