跳转至

RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case

会议: ICCV2025
arXiv: 2508.04642
代码: 项目页面
领域: 自动驾驶/Sim2Real
关键词: 端到端自动驾驶, Sim2Real迁移, 多模态大语言模型, 仿真数据增强, 困难场景

一句话总结

提出RoboTron-Sim框架,通过构建困难场景仿真数据集HASS、场景感知提示工程SPE和图像到自车编码器I2E,使MLLM有效利用仿真困难案例提升真实世界自动驾驶性能,在nuScenes困难场景下L2距离降低~48%、碰撞率降低~46%,达到开环规划SOTA。

研究背景与动机

数据稀缺瓶颈:端到端自动驾驶系统高度依赖数据驱动,但真实世界中高风险、长尾场景(如夜间行驶、暴雨、行人横穿等)的数据极度匮乏。nuScenes中昼夜数据比约7:1,直行与转弯比约8:1。

Sim2Real鸿沟:传统方法(如VAD)直接混合仿真和真实数据收效甚微——L2距离仅改善~1%。核心原因是仿真输入与真实数据之间存在固有差异(视觉风格、传感器参数、坐标系等),阻碍跨域知识迁移。

MLLM的新机遇与挑战:多模态大语言模型具备强大的推理和泛化能力,初步展示了跨域融合的潜力(LLaVA-OneVision优于VAD的Sim2Real表现),但仿真与真实数据在几何空间上的错位仍制约性能。

核心研究问题:MLLM如何有效利用仿真数据提升真实世界自动驾驶性能?这是首次深入研究MLLM在自动驾驶中的Sim2Real迁移限制。

方法详解

整体框架

RoboTron-Sim包含两大部分:(1) 数据层——构建困难场景仿真数据集HASS;(2) 模型层——基于MLLM的驾驶框架,配合SPE和I2E Encoder弥合Sim2Real差距。

1. HASS数据集构建

场景分类策略

  • 常见场景分为Easy-to-Drive (E2D,如白天直行) 和Hard-to-Drive (H2D,如夜间、雾天、暴雨)
  • 长尾场景:极低频但高风险事件,涵盖13类边缘案例(行人横穿、车辆突然变道、逆行侵入、路面施工等)
  • H2D和长尾场景是重点增补对象

数据生成

  • 基于CARLA仿真器,使用Think2Drive(世界模型驱动的RL架构)作为核心数据生成器
  • 传感器配置对齐nuScenes:6个900×1600分辨率摄像头,360°覆盖
  • 总计47,553个仿真样本

数据平衡

  • 昼/夜:58.65% / 41.35%(真实数据87.97% / 12.03%)
  • 晴/雨:48.38% / 51.61%(真实数据80.16% / 19.84%)
  • 直行/转弯:46.42% / 53.58%(真实数据88.86% / 11.14%)

坐标对齐

  • 将CARLA左手坐标系转换为nuScenes右手坐标系
  • 统一坐标原点到车顶中心

2. Scenario-aware Prompt Engineering (SPE)

在输入序列中加入结构化环境描述:"You are driving in [City Name] under [Simulation/Real-World] scenario."

  • 域感知:显式告知模型数据来源(仿真/真实),使模型意识到传感器噪声等差异
  • 地理条件化:嵌入城市名称先验(如交通规则、左/右行驶惯例),激活LLM内嵌常识知识自适应调整驾驶策略

3. Image-to-Ego Encoder (I2E Encoder)

  • 动机:仿真与真实场景中车辆和摄像头的内参/外参不同,形成关键的跨域几何差距
  • 方法:利用摄像头内参和外参计算图像到自车的变换矩阵,通过两层MLP映射到嵌入空间,捕获每个视角的空间上下文
  • 集成方式:编码结果与文本token拼接,使模型在决策过程中直接融入空间推理

4. MLLM基线架构

  • 视觉特征提取器 → 两层MLP投影器 → LLM解码器(基于LLaVA-OneVision)
  • 输入:6个摄像头×5帧连续视频 + 高层级指令(如"在下个路口左转")
  • 输出:未来轨迹点 + 预测车速
  • 引入速度监督增强自车状态感知

实验关键数据

开环规划主结果(nuScenes,Tab.3)

设置 方法 L2(m)↓ 碰撞率(%)↓ 越界率(%)↓
无ego pose OmniDrive 0.84 0.94 4.29
无ego pose RoboTron-Sim 0.56 0.58 3.02
有ego pose EMMA 0.32 - -
有ego pose OmniDrive 0.33 0.30 3.00
有ego pose RoboTron-Sim 0.23 0.26 2.62

场景特定改进(Tab.4,L2距离)

场景 仅nuScenes +HASS 改进
夜间(H2D) 1.40 0.81 ↓42.1%
转弯(H2D) 1.32 0.64 ↓51.5%
雨天(H2D) 1.15 0.56 ↓51.3%
白天(E2D) 0.59 0.54 ↓8.5%

消融实验(Tab.6)

SPE I2E L2(m)↓ 碰撞率(%)↓ 越界率(%)↓
0.91 0.94 3.22
0.86 0.79 2.68
0.56 0.58 3.02

数据效率

  • 仅20%真实数据+HASS即可匹配100%真实数据的性能
  • 纯仿真数据(0%真实)仍能获得L2=1.24m的合理性能

HASS vs GASS对比(Tab.10)

  • GASS(按nuScenes分布合成):H2D的L2=1.07m
  • HASS(困难场景增强合成):H2D的L2=0.67m(↓37.4%),碰撞率从1.74%降至0.96%
  • RoboTron-Sim+HASS达到PDMS=85.6,NAVSIM上SOTA

部署效率

  • RoboTron-Sim-7B延迟612.8ms
  • RoboTron-Sim-0.5B延迟仅141.4ms,与VAD(115.3ms)接近且性能相当

亮点与洞察

  1. 首次系统研究MLLM的Sim2Real:在自动驾驶领域首次深入研究MLLM利用仿真数据的限制和解决方案,填补了重要空白。

  2. 困难场景targeted合成:HASS不是均匀合成,而是针对性补充H2D和长尾场景。对比GASS的实验清楚证明了targeted策略的价值——H2D提升从~22%跳到~48%。

  3. SPE设计的巧妙性:不通过复杂的域适应网络,仅用一行文本prompt就完成域感知。这利用了LLM已有的常识知识(如不同城市交通规则),是MLLM时代特有的轻量级Sim2Real方案。

  4. I2E Encoder解耦了传感器配置:通过显式注入几何变换矩阵,使模型不再受限于特定传感器配置,L2距离额外降低34.9%,是最大的性能贡献源。

  5. 数据效率惊人:20%真实数据+HASS≈100%真实数据的效果,这对减少昂贵的真实数据采集有重大实际意义。

局限与展望

  1. 仅开环评估:所有实验都在nuScenes开环设置下评估,未做闭环testing(如CARLA Leaderboard)。开环指标已知与实际驾驶性能有显著差距。

  2. CARLA仿真器固有局限:HASS依赖CARLA,其视觉真实感仍有限。当仿真引擎升级(如Unreal Engine 5)后效果可能更好。

  3. 长尾场景覆盖有限:仅13类边缘案例,真实世界的长尾分布远比这复杂。如何自动发现和生成新的困难场景是未解的问题。

  4. SPE硬编码格式:prompt模板是手动设计的固定格式,未探索可学习的prompt或更灵活的域描述方式。

  5. 推理延迟较高:7B模型612.8ms,离实时自动驾驶(≤100ms)有差距。虽然0.5B版本接近VAD,但性能会有折损。

  6. 单一仿真器来源:仅用CARLA一个仿真器,未探索多仿真器组合或neural rendering方式生成训练数据。

相关工作与启发

  • UniAD/VAD:端到端自动驾驶基线,但对仿真数据的利用能力有限
  • EMMA (Google):多模态端到端自动驾驶模型,在有ego pose时L2=0.32m
  • OmniDrive:利用LLM进行3D感知、推理和规划的全栈框架
  • LLaVA-OneVision:本文MLLM基线的底座模型
  • Think2Drive:基于世界模型的RL驾驶agent,用于HASS数据采集
  • Senna/DriveVLM:结合MLLM与端到端模型的自动驾驶系统
  • 启发:MLLM的prompt工程可以作为轻量级域适应手段;几何信息的显式注入在跨域场景中非常有效

评分

  • 新颖性: ⭐⭐⭐⭐ (MLLM视角的Sim2Real是新切入点,SPE和I2E设计思路清晰)
  • 实验充分度: ⭐⭐⭐⭐⭐ (消融充分,多基准验证,数据效率分析,部署成本,VQA泛化)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,motivation充分,但表格较多影响可读性)
  • 价值: ⭐⭐⭐⭐ (对Sim2Real+MLLM方向有重要参考价值,实用性需闭环验证)

相关论文