Generating Multimodal Driving Scenes via Next-Scene Prediction¶

会议: CVPR 2025
arXiv: 2503.14945
代码: https://yanhaowu.github.io/UMGen (项目页)
领域: 自动驾驶 / 场景生成
关键词: 多模态场景生成, 自回归模型, 驾驶仿真, 下一场景预测, 时序一致性

一句话总结¶

提出 UMGen，一个统一的多模态驾驶场景生成框架，将自车动作、地图、交通参与者和图像四种模态进行 token 化，通过帧间时序自回归（TAR）和帧内有序自回归（OAR）两阶段策略逐场景生成，同时引入动作感知地图对齐（AMA）模块保持自车运动与地图的一致性，可自主生成长达 60 秒的连贯驾驶序列。

研究背景与动机¶

领域现状：生成式模型在自动驾驶中用于创建多样化的驾驶场景，尤其是数据集中罕见或未覆盖的场景，也可用于构建闭环仿真系统来安全测试自动驾驶系统。

现有痛点：现有方法通常只能生成有限的模态组合。GUMP 和 TrafficGen 只生成自车动作和 agent 轨迹，但没有地图演化（地图是静态的），限制了真实感；DriveDreamer 和 GAIA-1 能生成图像但无法预测交通参与者运动，缺乏对 agent 行为的细粒度控制。没有方法能同时生成并保持所有关键模态的一致性。

核心矛盾：多模态场景生成面临两个挑战：(1) 将所有模态的 token 展开为一个长序列进行 vanilla AR 建模会导致计算量爆炸；(2) 在同一帧内不同模态之间缺乏模态间一致性约束，容易出现冲突。

本文目标 如何在统一框架下同时生成四种关键模态（自车动作、地图、agent、图像），保证多模态一致性和时序连贯性，同时控制计算开销？

切入角度：将场景生成问题分解为帧间预测和帧内预测两个子问题，分别用 TAR 和 OAR 处理，避免在超长 token 序列上做全局注意力。同时利用自车动作对地图做仿射变换来保持两者一致性。

核心 idea：用"时序并行 + 模态内顺序"的两级自回归策略取代 vanilla 的全 token 自回归，大幅降低多模态场景生成的计算复杂度，同时通过 AMA 模块显式约束自车-地图一致性。

方法详解¶

整体框架¶

UMGen 的 pipeline 如下：给定过去 T 帧的多模态场景序列，(1) 将各模态（自车动作、地图、agent、图像）通过离散化或 VQ-GAN 转为 token；(2) Ego-action 预测模块预测下一帧的自车动作；(3) AMA 模块根据预测的自车动作对地图特征做仿射变换对齐；(4) TAR 模块通过因果注意力并行聚合每个 token 位置的时序信息；(5) OAR 模块以 GPT 风格按固定模态顺序（ego→map→agent→image）自回归生成帧内 token；(6) 解码 token 得到下一帧场景。

关键设计¶

帧间时序自回归（TAR）:
- 功能：捕获每个 token 位置在时间维度上的演化规律
- 核心思路：对经过 AMA 对齐的 T 帧 token 嵌入 \(\bar{\mathbf{e}}_{1:T}\)，沿时间维度对每个 token 位置 \(i\) 做因果自注意力 \(\bar{\mathbf{e}}_{T+1}^i = \text{CSA}(\bar{\mathbf{e}}_1^i, ..., \bar{\mathbf{e}}_T^i)\)，然后在帧内用双向自注意力做初始的跨模态信息交换。各 token 位置之间并行处理，计算复杂度为 \(O(T \times N)\) 而非 vanilla AR 的 \(O((T \times N)^2)\)。
- 设计动机：每个 token 位置在相邻帧中通常对应相同的物理位置/物体，因此按位置做时序注意力能高效捕获运动和变化趋势，同时避免在 \(T \times N\) 长度序列上做全局注意力的巨大开销。
帧内有序自回归（OAR）:
- 功能：在单帧内按模态因果顺序生成 token，保证模态间一致性
- 核心思路：以 TAR 的输出 \(\mathbf{h}_{T+1}\) 作为时序先验，结合已生成的前序 token \(\mathbf{o}_{T+1}^{1:i-1}\) 做因果自注意力预测当前 token \(\mathbf{o}_{T+1}^i\)。生成顺序为 ego→map→agent→image，反映了物理因果链：自车动作改变可观测地图，影响周围 agent 行为，最终反映在相机图像中。
- 设计动机：模态间存在因果依赖关系（如自车转弯→地图旋转→agent 让行→图像变化），按此顺序自回归生成能显式建模这种依赖，防止跨模态冲突。
动作感知地图对齐（AMA）:
- 功能：根据自车动作对地图特征做几何变换，为下一帧地图预测提供强先验
- 核心思路：将地图 token 嵌入重排为 H×W 空间特征，利用预测的自车动作（\(\theta, dx, dy\)）构造仿射变换矩阵生成采样网格，通过双线性插值对地图做旋转和平移变换，然后与原始地图特征相加得到变换后的地图嵌入。
- 设计动机：相邻帧的地图在自车坐标系下的变化主要由自车运动引起，通过显式的仿射变换可以低成本地传递地图信息，大幅降低地图生成难度。

损失函数 / 训练策略¶

总损失为 OAR 和 TAR 两个交叉熵损失之和：\(\mathcal{L}_{total} = CE(\mathbf{p}^{OAR}_{T+1}, \mathbf{z}_{T+1}) + CE(\mathbf{p}^{TAR}_{T+1}, \mathbf{z}_{T+1})\)。训练时每次随机取 21 帧序列，在 32 张 RTX 4090 上训练 300 个 epoch（约 2 天）。推理时使用 Top-k 采样策略生成 token。

实验关键数据¶

主实验¶

在 nuPlan 和 WOMD 数据集上的初始场景生成 MMD 指标对比：

方法	Position↓	Heading↓	Speed↓	数据集
TrafficGen	0.83	0.82	0.90	WOMD
SceneDM	0.39	0.37	0.62	WOMD
UMGen	0.17	0.22	0.35	WOMD
TrafficGen	3.29	1.04	4.34	nuPlan
UMGen	0.42	0.35	0.73	nuPlan

UMGen 在所有 MMD 指标上大幅超越对比方法，说明其生成的场景分布更接近真实数据。

消融实验¶

配置	Agent MMD↓	Agent CR↓	说明
Full model	0.31	0.018	完整模型
w/o TAR	0.45	0.032	去掉时序建模，场景连贯性下降
w/o OAR	0.38	0.041	去掉帧内顺序生成，碰撞率大幅上升
w/o AMA	0.34	0.025	地图对齐缺失，空间一致性降低

关键发现¶

OAR 对减少模态间冲突至关重要（去掉后碰撞率翻倍），验证了帧内模态顺序建模的必要性。
TAR 相比 vanilla AR 在推理效率上有显著优势：per-token 推理时间降低约 60%，峰值显存降低约 40%。
UMGen 能生成长达 60 秒的连贯多模态驾驶序列，展现了良好的时序稳定性。
通过控制 ego-action 输入，可以生成用户指定的场景（如转弯、直行），为仿真测试提供灵活性。

亮点与洞察¶

两级 AR 的分治策略：TAR 并行处理时序、OAR 顺序处理模态，将 \(O((TN)^2)\) 的注意力复杂度降为 \(O(T \times N)\)，这是一个通用的长序列多模态生成加速方案，可迁移到视频-音频联合生成等任务。
模态顺序的物理因果性：ego→map→agent→image 的生成顺序不是随意的，而是反映了真实世界的因果链，这种 domain knowledge 的注入使生成质量大幅提升。
AMA 模块的简洁有效：仅用一个仿射变换就实现了自车-地图一致性维护，成本极低但效果显著。

局限与展望¶

图像生成依赖 VQ-GAN，分辨率和质量有限，未来可考虑使用扩散模型替代。
当前 agent 数量通过 padding 固定，对 agent 动态出现/消失的建模还不够灵活。
仅展示了前视图生成，是否能扩展到多视图一致的场景生成值得探索。
没有在闭环仿真中验证生成场景对自动驾驶策略学习的实际效用。

评分¶

新颖性: ⭐⭐⭐⭐ 四模态统一生成 + TAR/OAR 双层 AR 是新颖的方案设计
实验充分度: ⭐⭐⭐ 定性结果丰富但定量评估主要限于 MMD，缺少下游任务验证
写作质量: ⭐⭐⭐⭐ 框架图清晰，方法描述完整
价值: ⭐⭐⭐⭐ 为自动驾驶仿真提供了有前景的多模态生成方案