SceneDiffuser++: City-Scale Traffic Simulation via a Generative World Model¶

会议: CVPR 2025
arXiv: 2506.21976
代码: 无
领域: 自动驾驶 / 交通仿真
关键词: 交通仿真, 扩散模型, 城市级, 软裁剪, 稀疏张量

一句话总结¶

提出 SceneDiffuser++，一个端到端的城市级交通仿真扩散模型，通过软裁剪（soft clipping）处理稀疏张量中的智能体出入场问题，实现 60 秒以上的行程级（trip-level）交通仿真，在 WOMD-XLMap 上达到 0.2423 综合 JS 散度。

领域现状：自动驾驶仿真需要逼真的交通场景生成。现有方法要么只能短时间仿真（<10 秒），要么不能处理智能体的出入场（车辆进入/离开场景）。城市级长时间仿真需要同时建模数百个智能体的行为、交通信号灯、遮挡关系和出入场动态。

现有痛点：稀疏张量是核心技术难题——不同智能体在不同时刻出现/消失，导致数据张量中有大量无效位置。传统做法用零填充或硬裁剪处理，但这在扩散模型推理中会导致生成质量下降。

核心矛盾：扩散模型在去噪过程中需要对所有位置同时操作，但稀疏张量的有效/无效位置需要差异化处理——有效位置需要精确去噪，无效位置需要保持为零。

切入角度：让模型同时预测特征值和有效性掩码，推理时用掩码软裁剪将无效位置平滑归零。

核心 idea：v-prediction 扩散 + 软裁剪处理稀疏智能体 + 多张量异构建模 = 端到端城市级交通仿真。

软裁剪（Soft Clipping）:
- 功能：在扩散推理中优雅处理稀疏张量的有效/无效位置
- 核心思路：模型同时预测特征值和有效性掩码 \(M(x)\)。推理时 \(\hat{x}_t \leftarrow V(\hat{x}_t) \cdot M(\hat{x}_t)\)——有效掩码接近 1 的位置保留特征值，接近 0 的位置被归零。与硬裁剪（二值化阈值）相比，软裁剪保持了可微性
- 设计动机：硬裁剪在去噪早期的中间步骤中引入不连续，导致生成质量下降
多张量异构场景建模:
- 功能：统一处理不同维度的场景元素
- 核心思路：智能体（位置/朝向/速度 = 5 维）和交通信号灯（状态 = 4 维）作为不同张量处理，共享同一扩散模型但有各自的投影层
- 设计动机：交通灯与智能体特征维度和语义完全不同，强行统一到同一维度会损失信息

v-prediction 扩散损失 \(L = \mathbb{E}[\|(\tilde{v}_\theta - v_t) \cdot w\|_2^2]\)，有效位置的权重更高。训练数据：WOMD-XLMap（1km 半径增广地图），600 步（60 秒）rollout，每 40 步重新规划。

WOMD-XLMap 60s 仿真 JS 散度↓：

方法	综合分	交通灯违规	有效智能体
SceneDiffuser	~0.29	~0.20	~0.35
SceneDiffuser++	0.2423	0.1625	0.3053