RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case¶
会议: ICCV2025
arXiv: 2508.04642
代码: 项目页面
领域: 自动驾驶/Sim2Real
关键词: 端到端自动驾驶, Sim2Real迁移, 多模态大语言模型, 仿真数据增强, 困难场景
一句话总结¶
提出RoboTron-Sim框架,通过构建困难场景仿真数据集HASS、场景感知提示工程SPE和图像到自车编码器I2E,使MLLM有效利用仿真困难案例提升真实世界自动驾驶性能,在nuScenes困难场景下L2距离降低~48%、碰撞率降低~46%,达到开环规划SOTA。
研究背景与动机¶
数据稀缺瓶颈:端到端自动驾驶系统高度依赖数据驱动,但真实世界中高风险、长尾场景(如夜间行驶、暴雨、行人横穿等)的数据极度匮乏。nuScenes中昼夜数据比约7:1,直行与转弯比约8:1。
Sim2Real鸿沟:传统方法(如VAD)直接混合仿真和真实数据收效甚微——L2距离仅改善~1%。核心原因是仿真输入与真实数据之间存在固有差异(视觉风格、传感器参数、坐标系等),阻碍跨域知识迁移。
MLLM的新机遇与挑战:多模态大语言模型具备强大的推理和泛化能力,初步展示了跨域融合的潜力(LLaVA-OneVision优于VAD的Sim2Real表现),但仿真与真实数据在几何空间上的错位仍制约性能。
核心研究问题:MLLM如何有效利用仿真数据提升真实世界自动驾驶性能?这是首次深入研究MLLM在自动驾驶中的Sim2Real迁移限制。
方法详解¶
整体框架¶
RoboTron-Sim包含两大部分:(1) 数据层——构建困难场景仿真数据集HASS;(2) 模型层——基于MLLM的驾驶框架,配合SPE和I2E Encoder弥合Sim2Real差距。
1. HASS数据集构建¶
场景分类策略¶
- 常见场景分为Easy-to-Drive (E2D,如白天直行) 和Hard-to-Drive (H2D,如夜间、雾天、暴雨)
- 长尾场景:极低频但高风险事件,涵盖13类边缘案例(行人横穿、车辆突然变道、逆行侵入、路面施工等)
- H2D和长尾场景是重点增补对象
数据生成¶
- 基于CARLA仿真器,使用Think2Drive(世界模型驱动的RL架构)作为核心数据生成器
- 传感器配置对齐nuScenes:6个900×1600分辨率摄像头,360°覆盖
- 总计47,553个仿真样本
数据平衡¶
- 昼/夜:58.65% / 41.35%(真实数据87.97% / 12.03%)
- 晴/雨:48.38% / 51.61%(真实数据80.16% / 19.84%)
- 直行/转弯:46.42% / 53.58%(真实数据88.86% / 11.14%)
坐标对齐¶
- 将CARLA左手坐标系转换为nuScenes右手坐标系
- 统一坐标原点到车顶中心
2. Scenario-aware Prompt Engineering (SPE)¶
在输入序列中加入结构化环境描述:"You are driving in [City Name] under [Simulation/Real-World] scenario."
- 域感知:显式告知模型数据来源(仿真/真实),使模型意识到传感器噪声等差异
- 地理条件化:嵌入城市名称先验(如交通规则、左/右行驶惯例),激活LLM内嵌常识知识自适应调整驾驶策略
3. Image-to-Ego Encoder (I2E Encoder)¶
- 动机:仿真与真实场景中车辆和摄像头的内参/外参不同,形成关键的跨域几何差距
- 方法:利用摄像头内参和外参计算图像到自车的变换矩阵,通过两层MLP映射到嵌入空间,捕获每个视角的空间上下文
- 集成方式:编码结果与文本token拼接,使模型在决策过程中直接融入空间推理
4. MLLM基线架构¶
- 视觉特征提取器 → 两层MLP投影器 → LLM解码器(基于LLaVA-OneVision)
- 输入:6个摄像头×5帧连续视频 + 高层级指令(如"在下个路口左转")
- 输出:未来轨迹点 + 预测车速
- 引入速度监督增强自车状态感知
实验关键数据¶
开环规划主结果(nuScenes,Tab.3)¶
| 设置 | 方法 | L2(m)↓ | 碰撞率(%)↓ | 越界率(%)↓ |
|---|---|---|---|---|
| 无ego pose | OmniDrive | 0.84 | 0.94 | 4.29 |
| 无ego pose | RoboTron-Sim | 0.56 | 0.58 | 3.02 |
| 有ego pose | EMMA | 0.32 | - | - |
| 有ego pose | OmniDrive | 0.33 | 0.30 | 3.00 |
| 有ego pose | RoboTron-Sim | 0.23 | 0.26 | 2.62 |
场景特定改进(Tab.4,L2距离)¶
| 场景 | 仅nuScenes | +HASS | 改进 |
|---|---|---|---|
| 夜间(H2D) | 1.40 | 0.81 | ↓42.1% |
| 转弯(H2D) | 1.32 | 0.64 | ↓51.5% |
| 雨天(H2D) | 1.15 | 0.56 | ↓51.3% |
| 白天(E2D) | 0.59 | 0.54 | ↓8.5% |
消融实验(Tab.6)¶
| SPE | I2E | L2(m)↓ | 碰撞率(%)↓ | 越界率(%)↓ |
|---|---|---|---|---|
| ✗ | ✗ | 0.91 | 0.94 | 3.22 |
| ✓ | ✗ | 0.86 | 0.79 | 2.68 |
| ✓ | ✓ | 0.56 | 0.58 | 3.02 |
数据效率¶
- 仅20%真实数据+HASS即可匹配100%真实数据的性能
- 纯仿真数据(0%真实)仍能获得L2=1.24m的合理性能
HASS vs GASS对比(Tab.10)¶
- GASS(按nuScenes分布合成):H2D的L2=1.07m
- HASS(困难场景增强合成):H2D的L2=0.67m(↓37.4%),碰撞率从1.74%降至0.96%
跨基准泛化(NAVSIM)¶
- RoboTron-Sim+HASS达到PDMS=85.6,NAVSIM上SOTA
部署效率¶
- RoboTron-Sim-7B延迟612.8ms
- RoboTron-Sim-0.5B延迟仅141.4ms,与VAD(115.3ms)接近且性能相当
亮点与洞察¶
-
首次系统研究MLLM的Sim2Real:在自动驾驶领域首次深入研究MLLM利用仿真数据的限制和解决方案,填补了重要空白。
-
困难场景targeted合成:HASS不是均匀合成,而是针对性补充H2D和长尾场景。对比GASS的实验清楚证明了targeted策略的价值——H2D提升从~22%跳到~48%。
-
SPE设计的巧妙性:不通过复杂的域适应网络,仅用一行文本prompt就完成域感知。这利用了LLM已有的常识知识(如不同城市交通规则),是MLLM时代特有的轻量级Sim2Real方案。
-
I2E Encoder解耦了传感器配置:通过显式注入几何变换矩阵,使模型不再受限于特定传感器配置,L2距离额外降低34.9%,是最大的性能贡献源。
-
数据效率惊人:20%真实数据+HASS≈100%真实数据的效果,这对减少昂贵的真实数据采集有重大实际意义。
局限与展望¶
-
仅开环评估:所有实验都在nuScenes开环设置下评估,未做闭环testing(如CARLA Leaderboard)。开环指标已知与实际驾驶性能有显著差距。
-
CARLA仿真器固有局限:HASS依赖CARLA,其视觉真实感仍有限。当仿真引擎升级(如Unreal Engine 5)后效果可能更好。
-
长尾场景覆盖有限:仅13类边缘案例,真实世界的长尾分布远比这复杂。如何自动发现和生成新的困难场景是未解的问题。
-
SPE硬编码格式:prompt模板是手动设计的固定格式,未探索可学习的prompt或更灵活的域描述方式。
-
推理延迟较高:7B模型612.8ms,离实时自动驾驶(≤100ms)有差距。虽然0.5B版本接近VAD,但性能会有折损。
-
单一仿真器来源:仅用CARLA一个仿真器,未探索多仿真器组合或neural rendering方式生成训练数据。
相关工作与启发¶
- UniAD/VAD:端到端自动驾驶基线,但对仿真数据的利用能力有限
- EMMA (Google):多模态端到端自动驾驶模型,在有ego pose时L2=0.32m
- OmniDrive:利用LLM进行3D感知、推理和规划的全栈框架
- LLaVA-OneVision:本文MLLM基线的底座模型
- Think2Drive:基于世界模型的RL驾驶agent,用于HASS数据采集
- Senna/DriveVLM:结合MLLM与端到端模型的自动驾驶系统
- 启发:MLLM的prompt工程可以作为轻量级域适应手段;几何信息的显式注入在跨域场景中非常有效
评分¶
- 新颖性: ⭐⭐⭐⭐ (MLLM视角的Sim2Real是新切入点,SPE和I2E设计思路清晰)
- 实验充分度: ⭐⭐⭐⭐⭐ (消融充分,多基准验证,数据效率分析,部署成本,VQA泛化)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,motivation充分,但表格较多影响可读性)
- 价值: ⭐⭐⭐⭐ (对Sim2Real+MLLM方向有重要参考价值,实用性需闭环验证)
相关论文¶
- [ICCV 2025] LookOut: Real-World Humanoid Egocentric Navigation
- [ICCV 2025] SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World
- [CVPR 2025] Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation
- [NeurIPS 2025] ChronoGraph: A Real-World Graph-Based Multivariate Time Series Dataset
- [CVPR 2025] Toward Real-World BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting