Traffic Scene Generation from Natural Language Description for Autonomous Vehicles with Large Language Model¶

会议: CVPR 2026
arXiv: 2409.09575
代码: https://basiclab.github.io/TTSG
领域: 自动驾驶 / 场景生成
关键词: 文本到交通场景生成, 大语言模型, 自动驾驶, 安全场景, 道路排名

一句话总结¶

提出 TTSG 模块化框架，利用 LLM 将自由文本描述转化为可执行的交通场景，通过提示分析、道路检索、智能体规划和新颖的计划感知道路排名算法生成多样化场景，在 SafeBench 上实现最低平均碰撞率 3.5%。

领域现状：交通场景数据集（nuScenes、Waymo）提供了丰富的驾驶日志，但受限于安全和可控性。CARLA 和 MetaDrive 等模拟器虽可定制场景，但依赖随机采样或轨迹回放。
现有痛点：LCTGen、ChatScene 等方法要么需要结构化输入无法处理自由文本，要么需要用户手动指定出生点和地图位置，且忽略了环境条件（信号灯、天气等）。
核心矛盾：如何从非结构化自然语言直接生成空间有效、语义连贯的交通布局，同时不依赖预定义路线或出生点。
本文目标：无训练的模块化框架，直接从自然语言生成现实交通场景。
切入角度：将 LLM 用作受控管道中的通用规划器，而非端到端生成器。
核心 idea：计划感知道路排名算法确保智能体动作与道路几何的一致性。

五阶段管道：(1) 提示分析：LLM 解析用户输入为结构化元素；(2) 道路检索：从预建图中检索候选道路；(3) 智能体规划：LLM 规划多智能体行为；(4) 道路排名：评估道路与智能体计划的兼容性；(5) 场景生成：渲染为可执行交通场景。

道路图构建与智能体集:
- 功能：编码道路网络信息以支持自动出生点选择
- 核心思路：将 CARLA 地图转为 OpenDRIVE 格式，解析信号灯、静态物体、交叉口、车道配置等特征，组织为图结构。智能体集支持9种类型。
- 设计动机：图结构支持高效查询道路连接关系，实现无需预定义几何的灵活场景生成。
计划感知道路排名算法:
- 功能：从候选道路中选择最适合智能体计划的道路
- 核心思路：对每条候选道路，检查其是否满足每个智能体的条件（转向权限、道路类型、长度等），用指示函数累加得分：\(r^* = \arg\max_{r \in R_c} \sum_{a \in A} \mathbf{1}_{\{\text{match}(r,a)\}}\)。同分时随机选择以保证多样性。
- 设计动机：先前方法随机选路忽略了转向权限和出生点充足性等关键因素。
提示分析与序列事件支持:
- 功能：将自由文本分解为结构化组件并支持多阶段场景
- 核心思路：LLM 将输入分解为所需信号、物体和智能体配置。支持序列事件通过迭代规划——前一事件的最终位置作为后续事件的起始点。
- 设计动机：替代 CoT 方法以显著减少 token 使用量同时保持可比的规划质量。

无训练框架，使用 GPT-4o 作为默认 LLM。每阶段后有格式验证，不合格时重新提交。

场景	指标	TTSG	ChatScene (之前SOTA)	提升
直行障碍	碰撞率↓	0.021	0.030	-0.009
变道	碰撞率↓	0.085	0.110	-0.025
无保护左转	碰撞率↓	0.000	0.100	-0.100
平均	碰撞率↓	0.035	0.080	-0.045

配置	Agent Acc	Road Acc	说明
w/ analysis+CoT	0.975	0.940	最优但 token 多
w/ analysis (默认)	0.925	0.875	性能可比，token 少
w/o analysis	0.833	0.775	显著下降
w/ road ranking	SA=0.800	-	场景准确率提升
w/o road ranking	SA=0.560	-	下降明显