跳转至

Unraveling the Effects of Synthetic Data on End-to-End Autonomous Driving

会议: ICCV 2025
arXiv: 2503.18108
代码: GitHub
领域: 自动驾驶
关键词: 合成数据, 端到端自动驾驶, 3D高斯溅射, 闭环评估, 交互式仿真

一句话总结

提出 SceneCrafter,一个基于 3DGS 的统一仿真框架,通过自适应运动学模型和双向交互式智能体控制,同时支持合成数据生成和闭环评估,实验证明合成数据可显著提升端到端自动驾驶模型的泛化能力(Route Completion 提升 18%)。

研究背景与动机

端到端(E2E)自动驾驶模型是数据驱动的,场景多样性和轨迹分布对模型效果起决定性作用。然而,大规模真实数据采集昂贵耗时。现有仿真器存在显著局限:

游戏引擎仿真器(CARLA、SUMO):传感器数据不够真实,存在 sim-to-real gap

NeRF/扩散模型方法:计算和时间成本高,空间-时间不一致

现有 3DGS 仿真器(HugSim):缺乏合理的交通流交互,仅支持 agent-to-ego 单向交互

开环评估局限:现有开环评估(L2 距离、碰撞率)无法真正评估规划质量,模型可能学到只拟合训练分布的"捷径"

理想的仿真器应同时具备:真实感渲染、实时效率、空间-时间一致性、双向交互交通流、并能生成 E2E 模型的训练数据。目前没有任何方法同时满足所有条件。

核心 idea:用 3DGS 重建真实场景 + 构建可编辑模型库 + 自适应运动学模型 + 双向交互控制 = 高效逼真的统一仿真框架。

方法详解

整体框架

SceneCrafter 包含两个核心组件: - Scene Controller:管理环境中所有智能体的状态和行为,动态更新交通流 - Scene Renderer:基于 Controller 的更新生成高保真驾驶场景图像

支持两种模式:合成数据生成(expert planner 控制 ego)和闭环评估(learned policy 控制 ego)。

关键设计

  1. 启发式智能体生成与双向交互控制:

    • 功能:在真实 HD 地图上生成多样化的交通参与者,实现 ego-agent 双向交互
    • 核心思路:提供两种生成方式——基于路径的(优先选择可能与 ego 交互的生成点)和基于触发器的(ego 到达触发点时激活智能体)。每个时间步,智能体根据自身状态、ego 状态、路线和地图拓扑更新行为 \(b_j^{t+1}\),建立双向交互关系。还引入危险行为模式(急变道、紧急刹车等)用于长尾场景评估
    • 设计动机:现有仿真器(HugSim)仅支持 agent-to-ego 交互,无法模拟真实复杂的交通动态
  2. 自适应运动学模型(AKM):

    • 功能:修正仿真与真实 ego 动力学间的差异
    • 核心思路:在标准自行车模型基础上引入两个可学习参数 \(u_1, u_2\),从真实 IMU 数据估计: \(v_u = (1 - \boldsymbol{u_1})v_t + \boldsymbol{u_1}v_{t+1}\) \(x_{t+1} = x_t + v_u \cos(\varphi_t + \boldsymbol{u_2} \cdot \beta_t) \Delta t\) \(u_1\) 调节速度插值(防止不自然位移),\(u_2\) 调节方向动态
    • 设计动机:标准自行车模型在转弯时产生不自然的车辆朝向,仿真-真实的动力学差异会显著影响规划
  3. 高斯溅射模型库 + 地面高度估计 + 方向性阴影:

    • 功能:生成高保真的驾驶场景图像
    • 核心思路:
      • 背景模型:用 Street Gaussians 训练,仅保留静态元素
      • 前景模型库:用 BlenderNeRF 和 3DRealCar 构建虚拟车辆资产
      • 地面高度估计:用 RANSAC 提取地面 LiDAR 点,三层 MLP 拟合全局地面模型 \(\hat{z} = f(x, y)\),修正 z 轴偏移。损失设计为非对称的:\(\hat{z} > z\) 用 MSE(阻止低于地面),\(\hat{z} \leq z\) 用 Huber(容许略高于地面的点)
      • 方向性阴影:预估全局光照方向,为每个前景模型生成多方向阴影 3DGS 模型
    • 设计动机:车辆悬浮或陷入地面是渲染常见伪影;缺少阴影会降低前景真实感

损失函数 / 训练策略

AKM 参数从真实 IMU 数据学习。背景和前景 3DGS 各自独立训练。合成数据生成使用 expert planner 控制 ego(沿原始轨迹行驶但根据交通流调整速度),闭环评估替换为 learned policy。

实验关键数据

主实验(数据增强效果)

训练数据 Real volume Sim volume Planning L2 Avg(m)↓ CR Avg(%)↓
\(\mathcal{D}_{200}\) 8k - 1.39 0.52
\(\mathcal{D}_{200}\) + Sim 8k 2k 1.18 0.45
\(\mathcal{D}_{recon}^c\) 28k - 1.09 0.32
\(\mathcal{D}_{recon}^c\) + Sim 28k 2k 1.04 0.25

闭环评估结果

模型 Sim数据 RC↑(%) VC↓(%) LCR↓(%) Turn RC↑(%)
VAD 42.01 7.55 7.48 25.71
VAD +6k 53.03 3.43 6.08 34.72
GenAD 44.87 7.62 8.50 28.47
GenAD +6k 49.65 5.45 5.76 34.02

消融实验

配置 关键指标 说明
虚拟车辆(无阴影) vs 3DRealCar(有阴影) Car AP: 38.4 vs 39.6 真实车辆+阴影提升检测分数
自行车模型(BM) vs AKM Planning L2 1s: 0.47 vs 0.38 AKM 的轨迹更接近真实
交互率对比 Sim > Real 合成数据交互率更高,ego速度变化分布更长尾

关键发现

  • 合成数据在小规模真实数据集上效果显著(Planning L2 降 15%),大规模数据集上边际收益较小
  • 闭环评估中 Route Completion 提升最高可达 18%(VAD),Vehicle Collision Rate 降低超 50%
  • AKM 生成的转弯轨迹更平滑、更接近真实 IMU 记录
  • 合成数据的交互多样性(ego 速度变化的长尾分布)有效防止模型学到"一直加速/减速"的 shortcut
  • 首次研究合成数据对基于模仿学习的 E2E 模型(在真实数据训练、光真实感闭环环境评估)的影响

亮点与洞察

  • 统一框架:同一平台同时支持数据生成和闭环评估,前所未有
  • 以 E2E 模型为代理评估器:用训练好的 VAD 作为零样本评估器来衡量仿真真实感,比 FID/PSNR 等像素级指标更有意义
  • 交互性量化:定义了 Interaction Rate 和 Ego Speed Alteration 指标来衡量交通流交互质量
  • 地面高度估计的非对称损失设计简洁有效

局限与展望

  • 当前交通参与者类型有限(仅车辆),未来需增加行人、骑行者
  • 渲染范围受限于原始训练场景,未见区域需要轻量扩散模型补充
  • 开环评估时合成数据在大规模真实数据基础上边际提升有限,因 Waymo 验证集以简单巡航为主
  • 前景替换可能引入假阳性检测框
  • 未与 DriveArena、UniSim 等方法进行定量渲染质量对比(因这些方法无法生成完整 driving log)

相关工作与启发

  • 首次系统研究合成数据对真实数据训练的 E2E 模型的影响
  • AKM 的可学习参数思想可推广到其他仿真器的运动模型校准
  • 双向交互控制的设计思路可用于安全关键场景生成

评分

  • 新颖性: ⭐⭐⭐⭐ 统一框架+系统性研究合成数据影响有新意,但各组件技术创新偏增量
  • 实验充分度: ⭐⭐⭐⭐⭐ 开环+闭环+交互性+消融+定性分析,实验设计全面系统
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,但部分技术细节放在附录影响连贯性
  • 价值: ⭐⭐⭐⭐⭐ 解决了 E2E 自动驾驶研究中仿真器缺乏交互性和数据生成能力的痛点

相关论文