SLEDGE: Synthesizing Driving Environments with Generative Models and Rule-Based Traffic¶

会议: ECCV 2024
arXiv: 2403.17933
代码: GitHub
领域: 自动驾驶
关键词: 扩散 Transformer, 驾驶仿真, 车道图生成, 潜在扩散模型, 运动规划

一句话总结¶

SLEDGE 提出了首个基于生成模型的驾驶仿真器，通过 Raster-to-Vector 自编码器将驾驶场景编码为栅格化潜在图（RLM），再利用 Diffusion Transformer 生成高质量的车道图和交通参与者，实现了比 nuPlan 少 500 倍存储（<4GB）的仿真环境，同时支持 500m 长路线测试，暴露了 SOTA 规划器 PDM-Closed 超过 40% 的失败率。

研究背景与动机¶

领域现状: 数据驱动的驾驶仿真器（如 nuPlan、Waymax）是评估自动驾驶规划算法的关键工具。这些仿真器通过重放（replay）真实驾驶日志中的抽象 BEV 表示（车道、交通灯、动态/静态目标）来初始化仿真环境。

现有痛点: - 存储需求巨大: nuPlan 包含 1300 小时的驾驶日志，需要超过 2TB 的存储空间，严重提高了研究门槛 - 路线受限: 基于日志重放的仿真器只能在短时间（约 15 秒）和有限路线内进行测试，因为一旦规划器偏离录制路线，仿真环境的覆盖就无法保证 - 可控性差: 无法灵活调整交通密度、路线难度等参数来进行更全面的压力测试

核心矛盾: 生成模型在图像合成领域取得巨大成功，但驾驶场景的抽象表示（变长向量集合、拓扑连通性、几何精度要求）与图像的均匀网格结构截然不同，导致现代生成模型无法直接应用

本文目标 如何用生成模型合成仿真可用的驾驶场景（包括车道图、交通参与者），替代依赖海量日志的重放方式

切入角度: 设计一种统一的栅格化表示，将所有场景实体（车道、交通灯、车辆、行人、障碍物）编码到固定大小的 2D 潜在空间中，使得标准的 Diffusion Transformer 可以直接生成

核心 idea: 用 Raster-to-Vector 自编码器将变长向量化的驾驶场景映射为固定大小的栅格化潜在图（RLM），然后用 DiT 进行潜在扩散生成

方法详解¶

整体框架¶

SLEDGE 的生成流程分为两大阶段：(1) 训练 Raster-to-Vector Autoencoder（RVAE）学习场景的编解码；(2) 在冻结编码器产生的 RLM 上训练 Diffusion Transformer（DiT）。推理时，DiT 从噪声中生成 RLM，再由 RVAE 的解码器恢复向量化的场景实体，最后初始化基于规则的交通仿真。

关键设计¶

nuPlan 向量表示（Scene State \(\mathcal{S}\)）:
- 做什么: 定义仿真所需的完整场景状态
- 核心思路: 场景由多种实体组成：
  - 车道 \(\mathbf{L} \in \mathbb{R}^{20 \times 2}\)：20 个 BEV 点的折线，加邻接矩阵 \(\mathbf{A} \in \mathbb{R}^{N \times N}\) 编码拓扑连通性
  - 交通灯：红灯 \(\mathcal{R}\) 和绿灯 \(\mathcal{G}\)，与车道同格式的 \(20 \times 2\) 折线
  - 交通参与者：行人 \(\mathcal{P}\)、车辆 \(\mathcal{V}\)、静态障碍物 \(\mathcal{O}\)，用 2D 中心、朝向、尺寸、速度描述
  - 自车速度 \(\mathbf{v} \in \mathbb{R}^2\)
  - 完整场景状态: \(\mathcal{S} = \{\mathcal{M}, \mathcal{R}, \mathcal{G}, \mathcal{P}, \mathcal{V}, \mathcal{O}, \mathbf{v}\}\)
- 设计动机: 这种向量化表示是仿真器的标准输入格式，但实体数量可变、拓扑约束复杂，直接建模困难
栅格化状态图（RSI）与 Raster-to-Vector 自编码器（RVAE）:
- 做什么: 将变长向量场景统一编码为固定大小的 2D 栅格化潜在图（RLM）
- 核心思路:
  - 栅格化函数 \(\rho: \mathcal{S} \rightarrow \mathbf{I}\)：将场景编码为 12 通道的栅格化状态图 \(\mathbf{I} \in \mathbb{R}^{W \times H \times 12}\)，每种实体占 2 个通道。折线用方向向量 \(\Delta = [dx, dy]\) 编码，动态目标用 2D 速度填充，静态障碍物用朝向向量填充
  - 栅格编码器 \(\pi\)：ResNet-50 将 RSI 下采样为紧凑的 RLM \(\mathbf{M} = \pi(\mathbf{I})\)，形状为 \(8 \times 8 \times 64\)
  - 通道分组: RLM 的通道分为两组 \(C = C_L + C_A\)，车道组 \(8 \times 8 \times 32\) 和交通参与者组 \(8 \times 8 \times 32\)
  - 向量解码器 \(\phi\)：基于 DETR 范式的 Transformer 解码器，用 \(1 \times 1\) 空间 token 化的 RLM 作为 key/value，配合可学习的实体 query 解码出折线坐标、边界框属性和存在概率 \(p \in [0,1]\)
  - 通道分组掩码: 在交叉注意力中实施二值掩码——车道 query 只能 attend 车道 token，其他 query 只能 attend 交通参与者 token。这使得在已知车道的条件下可以单独生成交通参与者
- 设计动机: 统一不同实体类型为固定大小的 2D 表示，既兼容主流扩散模型架构，又通过通道分组支持条件生成
Diffusion Transformer（DiT）:
- 做什么: 在 RLM 潜在空间中学习数据分布，生成新的驾驶场景
- 核心思路:
  - 训练: 采用 DDPM 算法，对每个场景的 RLM \(\mathbf{M}\) 加噪 \(\hat{\mathbf{M}} = \mathbf{M} + \sigma \boldsymbol{\mathcal{E}}\)，DiT 预测噪声 \(\delta(\hat{\mathbf{M}}; \mathbf{c}, \sigma)\)，条件向量 \(\mathbf{c}\) 为城市的 one-hot 标签（区分美国右行 vs 新加坡左行），使用 AdaLN-Zero 机制注入条件信息，优化 L2 重建损失
  - 推理: 从噪声 \(\hat{\mathbf{M}} \sim \mathcal{N}(0, \sigma_{\max}^2 \mathbf{I})\) 开始迭代去噪，解码后保留存在概率 \(> \tau\) 的实体，重叠边界框保留最高概率者
  - 邻接矩阵恢复: 通过匹配端点距离 < 1.5m 且朝向差 < 60° 的车道来提取拓扑连通性
  - 条件生成（Inpainting）: 利用扩散模型天然的 inpainting 能力实现两个任务：(a) 已知车道条件下生成交通参与者——编码车道 token，去噪交通参与者 token；(b) 路线外推——沿路线迭代采样新位姿，将上一 tile 的 RSI 仿射变换到新位姿，已知区域作为条件补全未知区域
- 设计动机: DiT 架构简洁、可扩展、无下/上采样操作，天然兼容任意空间分辨率的 RLM；inpainting 机制使得场景可无限延伸
SLEDGE 仿真环境:
- 做什么: 利用生成的场景初始化反应式仿真
- 核心思路:
  - Hard Routes: 从车道图中提取多条有效路线，选择转弯次数最多的作为「困难」路线
  - Hard Traffic: 对同一路线生成多个交通配置，选择交通参与者最多的作为「困难」交通
  - 行为仿真: 非自车车辆投影到最近车道中心线，沿中心线行驶，纵向控制使用 Intelligent Driver Model（IDM）；行人保持匀速直线；交通灯每 15 秒切换
  - 仿真半径: 仅仿真距自车 \(\alpha = 64m\) 内的交通参与者，远处参与者保持静止，支持 500m 长路线（150 秒）的可扩展仿真
- 设计动机: 通过动态仿真半径突破传统仿真器的路线长度限制，hard routes/traffic 提供更具挑战性的评估

损失函数 / 训练策略¶

RVAE 训练:
- 重建损失: Hungarian 匹配后计算所有属性的 L1 误差
- 存在损失: 二值交叉熵，判断 query 是否匹配到真实实体
- KL 散度损失: 正则化 RLM 的潜在分布
DiT 训练:
- L2 噪声重建损失: \(\|\boldsymbol{\mathcal{E}} - \delta(\hat{\mathbf{M}}; \mathbf{c}, \sigma)\|_2^2\)
- 噪声尺度 \(\sigma\) 从对数正态分布采样
模型规模: DiT-L（138M 参数）和 DiT-XL（487M 参数），patch size \(1 \times 1\)
数据: nuPlan 数据集，450k 训练帧 + 50k 验证帧，四座城市，64m × 64m FOV

实验关键数据¶

主实验：车道图重建质量¶

表示方法	固定大小	通道分组	大小(KB)	GEO F1↑	TOPO F1↑	TOPO Chamfer↓
RSI	✓	✓	524.3	0.933	0.851	64.824
RLM (无掩码)	✓	✗	16.0	0.981	0.945	20.096
RLM (有掩码)	✓	✓	8.0	0.980	0.944	20.624
Vector (上界)	✗	✓	4.8	0.997	0.990	4.174

主实验：车道图生成质量¶

方法	表示	路线长度↑	Precision(RVEnc)↑	Recall(RVEnc)↑	Reach↓	Convenience↓
VAE	RSI	2.68±3.66	0.00	0.16	2.86	13.06
HDMapGen	Vector	28.17±14.81	7.48	12.45	2.49	18.10
DiT-L	RSI	24.78±10.38	19.20	5.94	1.90	3.95
DiT-L	RLM	32.51±9.93	63.99	61.60	0.88	3.10
DiT-XL	RLM	35.37±10.28	78.07	72.63	0.20	0.47

仿真实验：PDM-Closed 规划器失败率¶

任务	路线长度	路线/交通难度	转弯数	车辆数	失败率(PFR)
Replay	100m	-	0.89	57.40	0.06
Lane→Agent	100m	Easy/Easy	0.89	44.61	0.07
Lane→Agent	500m	Hard/Hard	4.20	170.87	0.44
Lane&Agent	100m	Easy/Easy	0.61	27.30	0.22
Lane&Agent	500m	Hard/Hard	3.82	169.66	0.49

关键发现¶

RLM 表示仅 8KB 即可达到接近上界的重建质量（F1=0.980），比 524KB 的 RSI 表示在拓扑指标上大幅领先
通道分组掩码对重建质量几乎无影响，却能支持条件生成
DiT-XL 在所有生成指标上大幅超越其他方法，性能随计算量显著提升，但对数据量不敏感（说明多样性比数量重要）
500m 长路线仿真暴露了 PDM-Closed 的致命弱点：无法变道和超车，这些在现有 15 秒短仿真中不易发现
困难路线+密集交通下，SOTA 规划器的失败率从 6% 飙升至 49%

亮点与洞察¶

极致压缩: 仅需 <4GB 即可完整设置仿真环境，相比 nuPlan 的 2TB 压缩了近 500 倍，大幅降低研究门槛
统一表示设计精巧: RSI 的 12 通道编码方案（方向向量编码折线、速度向量编码动态目标）自然而紧凑，channel group masking 巧妙实现条件/联合生成的灵活切换
Inpainting 路线外推: 利用扩散模型天然的 inpainting 能力实现场景无限延伸，无需额外训练，思路优雅
评估价值: 不仅是生成工具，更揭示了当前规划算法的盲区——长距离驾驶和复杂交通场景下的脆弱性

局限与展望¶

FOV 和仿真半径较小: 64m × 64m 的 FOV 和 64m 的仿真半径限制了高速场景的适用性
车道表示过于简化: 仅使用中心线，假设恒定车道宽度，缺少车道边界、标线等细节
交通行为简单: IDM 和匀速行人模型过于理想化，缺乏真实的交互行为
评估不够充分: 缺少在强化学习等下游任务中的验证
计算开销高: 扩散模型的推理成本较高，可考虑应用一致性蒸馏等加速技术

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个完整的生成式驾驶仿真器，RVAE+DiT 的架构设计具有原创性
实验充分度: ⭐⭐⭐⭐ 系统的表示对比、生成质量评估、scaling 分析、下游仿真验证，指标体系完善
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，方法展开条理分明，图表精美直观
实用价值: ⭐⭐⭐⭐⭐ 500 倍存储压缩极具实用意义，开源代码，显著降低研究门槛