Unraveling the Effects of Synthetic Data on End-to-End Autonomous Driving¶

会议: ICCV 2025
arXiv: 2503.18108
代码: GitHub
领域: 自动驾驶
关键词: 合成数据, 端到端自动驾驶, 3D高斯溅射, 闭环评估, 交互式仿真

一句话总结¶

提出 SceneCrafter，一个基于 3DGS 的统一仿真框架，通过自适应运动学模型和双向交互式智能体控制，同时支持合成数据生成和闭环评估，实验证明合成数据可显著提升端到端自动驾驶模型的泛化能力（Route Completion 提升 18%）。

研究背景与动机¶

端到端（E2E）自动驾驶模型是数据驱动的，场景多样性和轨迹分布对模型效果起决定性作用。然而，大规模真实数据采集昂贵耗时。现有仿真器存在显著局限：

游戏引擎仿真器（CARLA、SUMO）：传感器数据不够真实，存在 sim-to-real gap

NeRF/扩散模型方法：计算和时间成本高，空间-时间不一致

现有 3DGS 仿真器（HugSim）：缺乏合理的交通流交互，仅支持 agent-to-ego 单向交互

开环评估局限：现有开环评估（L2 距离、碰撞率）无法真正评估规划质量，模型可能学到只拟合训练分布的"捷径"

理想的仿真器应同时具备：真实感渲染、实时效率、空间-时间一致性、双向交互交通流、并能生成 E2E 模型的训练数据。目前没有任何方法同时满足所有条件。

核心 idea：用 3DGS 重建真实场景 + 构建可编辑模型库 + 自适应运动学模型 + 双向交互控制 = 高效逼真的统一仿真框架。

方法详解¶

整体框架¶

SceneCrafter 包含两个核心组件： - Scene Controller：管理环境中所有智能体的状态和行为，动态更新交通流 - Scene Renderer：基于 Controller 的更新生成高保真驾驶场景图像

支持两种模式：合成数据生成（expert planner 控制 ego）和闭环评估（learned policy 控制 ego）。

关键设计¶

启发式智能体生成与双向交互控制:
- 功能：在真实 HD 地图上生成多样化的交通参与者，实现 ego-agent 双向交互
- 核心思路：提供两种生成方式——基于路径的（优先选择可能与 ego 交互的生成点）和基于触发器的（ego 到达触发点时激活智能体）。每个时间步，智能体根据自身状态、ego 状态、路线和地图拓扑更新行为 \(b_j^{t+1}\)，建立双向交互关系。还引入危险行为模式（急变道、紧急刹车等）用于长尾场景评估
- 设计动机：现有仿真器（HugSim）仅支持 agent-to-ego 交互，无法模拟真实复杂的交通动态
自适应运动学模型（AKM）:
- 功能：修正仿真与真实 ego 动力学间的差异
- 核心思路：在标准自行车模型基础上引入两个可学习参数 \(u_1, u_2\)，从真实 IMU 数据估计： \(v_u = (1 - \boldsymbol{u_1})v_t + \boldsymbol{u_1}v_{t+1}\) \(x_{t+1} = x_t + v_u \cos(\varphi_t + \boldsymbol{u_2} \cdot \beta_t) \Delta t\) \(u_1\) 调节速度插值（防止不自然位移），\(u_2\) 调节方向动态
- 设计动机：标准自行车模型在转弯时产生不自然的车辆朝向，仿真-真实的动力学差异会显著影响规划
高斯溅射模型库 + 地面高度估计 + 方向性阴影:
- 功能：生成高保真的驾驶场景图像
- 核心思路：
  - 背景模型：用 Street Gaussians 训练，仅保留静态元素
  - 前景模型库：用 BlenderNeRF 和 3DRealCar 构建虚拟车辆资产
  - 地面高度估计：用 RANSAC 提取地面 LiDAR 点，三层 MLP 拟合全局地面模型 \(\hat{z} = f(x, y)\)，修正 z 轴偏移。损失设计为非对称的：\(\hat{z} > z\) 用 MSE（阻止低于地面），\(\hat{z} \leq z\) 用 Huber（容许略高于地面的点）
  - 方向性阴影：预估全局光照方向，为每个前景模型生成多方向阴影 3DGS 模型
- 设计动机：车辆悬浮或陷入地面是渲染常见伪影；缺少阴影会降低前景真实感

损失函数 / 训练策略¶

AKM 参数从真实 IMU 数据学习。背景和前景 3DGS 各自独立训练。合成数据生成使用 expert planner 控制 ego（沿原始轨迹行驶但根据交通流调整速度），闭环评估替换为 learned policy。

实验关键数据¶

主实验（数据增强效果）¶

训练数据	Real volume	Sim volume	Planning L2 Avg(m)↓	CR Avg(%)↓
\(\mathcal{D}_{200}\)	8k	-	1.39	0.52
\(\mathcal{D}_{200}\) + Sim	8k	2k	1.18	0.45
\(\mathcal{D}_{recon}^c\)	28k	-	1.09	0.32
\(\mathcal{D}_{recon}^c\) + Sim	28k	2k	1.04	0.25

闭环评估结果¶

模型	Sim数据	RC↑(%)	VC↓(%)	LCR↓(%)	Turn RC↑(%)
VAD	无	42.01	7.55	7.48	25.71
VAD	+6k	53.03	3.43	6.08	34.72
GenAD	无	44.87	7.62	8.50	28.47
GenAD	+6k	49.65	5.45	5.76	34.02

消融实验¶

配置	关键指标	说明
虚拟车辆(无阴影) vs 3DRealCar(有阴影)	Car AP: 38.4 vs 39.6	真实车辆+阴影提升检测分数
自行车模型(BM) vs AKM	Planning L2 1s: 0.47 vs 0.38	AKM 的轨迹更接近真实
交互率对比	Sim > Real	合成数据交互率更高，ego速度变化分布更长尾

关键发现¶

合成数据在小规模真实数据集上效果显著（Planning L2 降 15%），大规模数据集上边际收益较小
闭环评估中 Route Completion 提升最高可达 18%（VAD），Vehicle Collision Rate 降低超 50%
AKM 生成的转弯轨迹更平滑、更接近真实 IMU 记录
合成数据的交互多样性（ego 速度变化的长尾分布）有效防止模型学到"一直加速/减速"的 shortcut
首次研究合成数据对基于模仿学习的 E2E 模型（在真实数据训练、光真实感闭环环境评估）的影响

亮点与洞察¶

统一框架：同一平台同时支持数据生成和闭环评估，前所未有
以 E2E 模型为代理评估器：用训练好的 VAD 作为零样本评估器来衡量仿真真实感，比 FID/PSNR 等像素级指标更有意义
交互性量化：定义了 Interaction Rate 和 Ego Speed Alteration 指标来衡量交通流交互质量
地面高度估计的非对称损失设计简洁有效

局限与展望¶

当前交通参与者类型有限（仅车辆），未来需增加行人、骑行者
渲染范围受限于原始训练场景，未见区域需要轻量扩散模型补充
开环评估时合成数据在大规模真实数据基础上边际提升有限，因 Waymo 验证集以简单巡航为主
前景替换可能引入假阳性检测框
未与 DriveArena、UniSim 等方法进行定量渲染质量对比（因这些方法无法生成完整 driving log）

评分¶

新颖性: ⭐⭐⭐⭐ 统一框架+系统性研究合成数据影响有新意，但各组件技术创新偏增量
实验充分度: ⭐⭐⭐⭐⭐ 开环+闭环+交互性+消融+定性分析，实验设计全面系统
写作质量: ⭐⭐⭐⭐ 结构清晰，但部分技术细节放在附录影响连贯性
价值: ⭐⭐⭐⭐⭐ 解决了 E2E 自动驾驶研究中仿真器缺乏交互性和数据生成能力的痛点