RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case¶

会议: ICCV2025
arXiv: 2508.04642
代码: 项目页面
领域: 自动驾驶/Sim2Real
关键词: 端到端自动驾驶, Sim2Real迁移, 多模态大语言模型, 仿真数据增强, 困难场景

一句话总结¶

提出RoboTron-Sim框架，通过构建困难场景仿真数据集HASS、场景感知提示工程SPE和图像到自车编码器I2E，使MLLM有效利用仿真困难案例提升真实世界自动驾驶性能，在nuScenes困难场景下L2距离降低~48%、碰撞率降低~46%，达到开环规划SOTA。

研究背景与动机¶

数据稀缺瓶颈：端到端自动驾驶系统高度依赖数据驱动，但真实世界中高风险、长尾场景（如夜间行驶、暴雨、行人横穿等）的数据极度匮乏。nuScenes中昼夜数据比约7:1，直行与转弯比约8:1。

Sim2Real鸿沟：传统方法（如VAD）直接混合仿真和真实数据收效甚微——L2距离仅改善~1%。核心原因是仿真输入与真实数据之间存在固有差异（视觉风格、传感器参数、坐标系等），阻碍跨域知识迁移。

MLLM的新机遇与挑战：多模态大语言模型具备强大的推理和泛化能力，初步展示了跨域融合的潜力（LLaVA-OneVision优于VAD的Sim2Real表现），但仿真与真实数据在几何空间上的错位仍制约性能。

核心研究问题：MLLM如何有效利用仿真数据提升真实世界自动驾驶性能？这是首次深入研究MLLM在自动驾驶中的Sim2Real迁移限制。

方法详解¶

整体框架¶

RoboTron-Sim包含两大部分：(1) 数据层——构建困难场景仿真数据集HASS；(2) 模型层——基于MLLM的驾驶框架，配合SPE和I2E Encoder弥合Sim2Real差距。

1. HASS数据集构建¶

场景分类策略¶

常见场景分为Easy-to-Drive (E2D，如白天直行) 和Hard-to-Drive (H2D，如夜间、雾天、暴雨)
长尾场景：极低频但高风险事件，涵盖13类边缘案例（行人横穿、车辆突然变道、逆行侵入、路面施工等）
H2D和长尾场景是重点增补对象

数据生成¶

基于CARLA仿真器，使用Think2Drive（世界模型驱动的RL架构）作为核心数据生成器
传感器配置对齐nuScenes：6个900×1600分辨率摄像头，360°覆盖
总计47,553个仿真样本

数据平衡¶

昼/夜：58.65% / 41.35%（真实数据87.97% / 12.03%）
晴/雨：48.38% / 51.61%（真实数据80.16% / 19.84%）
直行/转弯：46.42% / 53.58%（真实数据88.86% / 11.14%）

坐标对齐¶

将CARLA左手坐标系转换为nuScenes右手坐标系
统一坐标原点到车顶中心

2. Scenario-aware Prompt Engineering (SPE)¶

在输入序列中加入结构化环境描述："You are driving in [City Name] under [Simulation/Real-World] scenario."

域感知：显式告知模型数据来源（仿真/真实），使模型意识到传感器噪声等差异
地理条件化：嵌入城市名称先验（如交通规则、左/右行驶惯例），激活LLM内嵌常识知识自适应调整驾驶策略

3. Image-to-Ego Encoder (I2E Encoder)¶

动机：仿真与真实场景中车辆和摄像头的内参/外参不同，形成关键的跨域几何差距
方法：利用摄像头内参和外参计算图像到自车的变换矩阵，通过两层MLP映射到嵌入空间，捕获每个视角的空间上下文
集成方式：编码结果与文本token拼接，使模型在决策过程中直接融入空间推理

4. MLLM基线架构¶

视觉特征提取器 → 两层MLP投影器 → LLM解码器（基于LLaVA-OneVision）
输入：6个摄像头×5帧连续视频 + 高层级指令（如"在下个路口左转"）
输出：未来轨迹点 + 预测车速
引入速度监督增强自车状态感知

实验关键数据¶

开环规划主结果（nuScenes，Tab.3）¶

设置	方法	L2(m)↓	碰撞率(%)↓	越界率(%)↓
无ego pose	OmniDrive	0.84	0.94	4.29
无ego pose	RoboTron-Sim	0.56	0.58	3.02
有ego pose	EMMA	0.32	-	-
有ego pose	OmniDrive	0.33	0.30	3.00
有ego pose	RoboTron-Sim	0.23	0.26	2.62

场景特定改进（Tab.4，L2距离）¶

场景	仅nuScenes	+HASS	改进
夜间(H2D)	1.40	0.81	↓42.1%
转弯(H2D)	1.32	0.64	↓51.5%
雨天(H2D)	1.15	0.56	↓51.3%
白天(E2D)	0.59	0.54	↓8.5%

消融实验（Tab.6）¶

SPE	I2E	L2(m)↓	碰撞率(%)↓	越界率(%)↓
✗	✗	0.91	0.94	3.22
✓	✗	0.86	0.79	2.68
✓	✓	0.56	0.58	3.02

数据效率¶

仅20%真实数据+HASS即可匹配100%真实数据的性能
纯仿真数据（0%真实）仍能获得L2=1.24m的合理性能

HASS vs GASS对比（Tab.10）¶

GASS（按nuScenes分布合成）：H2D的L2=1.07m
HASS（困难场景增强合成）：H2D的L2=0.67m（↓37.4%），碰撞率从1.74%降至0.96%

跨基准泛化（NAVSIM）¶

RoboTron-Sim+HASS达到PDMS=85.6，NAVSIM上SOTA

部署效率¶

RoboTron-Sim-7B延迟612.8ms
RoboTron-Sim-0.5B延迟仅141.4ms，与VAD(115.3ms)接近且性能相当

亮点与洞察¶

首次系统研究MLLM的Sim2Real：在自动驾驶领域首次深入研究MLLM利用仿真数据的限制和解决方案，填补了重要空白。
困难场景targeted合成：HASS不是均匀合成，而是针对性补充H2D和长尾场景。对比GASS的实验清楚证明了targeted策略的价值——H2D提升从~22%跳到~48%。
SPE设计的巧妙性：不通过复杂的域适应网络，仅用一行文本prompt就完成域感知。这利用了LLM已有的常识知识（如不同城市交通规则），是MLLM时代特有的轻量级Sim2Real方案。
I2E Encoder解耦了传感器配置：通过显式注入几何变换矩阵，使模型不再受限于特定传感器配置，L2距离额外降低34.9%，是最大的性能贡献源。
数据效率惊人：20%真实数据+HASS≈100%真实数据的效果，这对减少昂贵的真实数据采集有重大实际意义。

局限与展望¶

仅开环评估：所有实验都在nuScenes开环设置下评估，未做闭环testing（如CARLA Leaderboard）。开环指标已知与实际驾驶性能有显著差距。
CARLA仿真器固有局限：HASS依赖CARLA，其视觉真实感仍有限。当仿真引擎升级（如Unreal Engine 5）后效果可能更好。
长尾场景覆盖有限：仅13类边缘案例，真实世界的长尾分布远比这复杂。如何自动发现和生成新的困难场景是未解的问题。
SPE硬编码格式：prompt模板是手动设计的固定格式，未探索可学习的prompt或更灵活的域描述方式。
推理延迟较高：7B模型612.8ms，离实时自动驾驶(≤100ms)有差距。虽然0.5B版本接近VAD，但性能会有折损。
单一仿真器来源：仅用CARLA一个仿真器，未探索多仿真器组合或neural rendering方式生成训练数据。

评分¶

新颖性: ⭐⭐⭐⭐ (MLLM视角的Sim2Real是新切入点，SPE和I2E设计思路清晰)
实验充分度: ⭐⭐⭐⭐⭐ (消融充分，多基准验证，数据效率分析，部署成本，VQA泛化)
写作质量: ⭐⭐⭐⭐ (结构清晰，motivation充分，但表格较多影响可读性)
价值: ⭐⭐⭐⭐ (对Sim2Real+MLLM方向有重要参考价值，实用性需闭环验证)