Steerable Adversarial Scenario Generation through Test-Time Preference Alignment (SAGE)¶

会议: ICLR 2026
arXiv: 2509.20102
代码: https://tongnie.github.io/SAGE/
领域: 自动驾驶 / AI安全
关键词: 对抗场景生成, 偏好对齐, 多目标优化, 线性模式连通性, 闭环训练

一句话总结¶

SAGE 将自动驾驶对抗场景生成重构为多目标偏好对齐问题，通过训练两个偏好专家模型并在推理时通过权重插值实现对抗性与真实性之间的连续可控权衡，无需重新训练即可生成从温和到激进的全谱场景，显著提升闭环训练效果。

研究背景与动机¶

领域现状：自动驾驶安全验证需要大量 safety-critical 场景来测试和训练驾驶策略。对抗场景生成（adversarial scenario generation）通过扰动真实驾驶轨迹来高效生成长尾角落场景，是当前的主流方法。
现有痛点：现有方法（RL、扩散、直接优化）都面临一个核心矛盾——对抗性（adversariality）和真实性（realism）的权衡。方法要么只优化对抗性导致生成物理上不可能的轨迹（如车辆原地旋转来拦截 ego），要么通过线性加权来平衡多目标但高度依赖超参数调节。
核心矛盾：每次训练只能锁定一个固定的权衡点（Pareto 前沿上的一个点），无法在推理时灵活调整。要针对不同需求（极端压力测试 vs 数据增强）生成不同强度的场景，就需要重新训练，极其低效。
本文要解决什么？ (a) 如何高效地学习对抗性与真实性之间的权衡？ (b) 如何在推理时无需重训即可连续控制生成场景的攻击强度？ (c) 如何保证地图合规性（hard constraint）不被 soft preference 稀释？
切入角度：受 LLM 多目标对齐（如 3H 原则）和模型权重插值（linear mode connectivity）启发，作者将对抗场景优化视为偏好对齐问题，训练偏向不同极端的专家模型，推理时通过权重线性插值遍历整个 Pareto 前沿。
核心 idea 一句话：将对抗场景生成从"手动设计加权目标"转变为"学习可控的偏好景观"，通过专家权重插值实现测试时的连续可调。

方法详解¶

整体框架¶

输入是真实世界驾驶场景（包含道路地图、历史轨迹），输出是对特定对手车辆的对抗扰动轨迹。Pipeline 分三个阶段：(1) 基于预训练运动生成模型定义多目标优化问题；(2) 用 HGPO（层次分组偏好优化）分别训练两个偏好专家模型；(3) 推理时通过权重插值生成连续可控的场景谱。

关键设计¶

层次分组偏好优化 (HGPO):
做什么：用 DPO 风格的离线对齐方法微调预训练运动模型，同时处理硬约束（地图合规）和软偏好（对抗性 vs 真实性）。
核心思路：将地图合规从奖励函数中解耦出来，作为二值可行性前提条件 $F(\tau, \mathcal{M}) \in \{0,1\}$，而非连续惩罚项。对每个场景采样 $N$ 条轨迹，按可行性分组后构建两层偏好对：(a) 可行轨迹始终优于不可行轨迹；(b) 可行轨迹内部按 $R_{\text{pref}} = w_{\text{adv}} R_{\text{adv}} - w_{\text{real}} P_{\text{real}}$ 排序。最终用标准 DPO 损失优化所有偏好对。
设计动机：线性加权地图惩罚会混淆 hard/soft 约束（穿墙不是"不太好"而是"完全无效"），导致模型学习利用地图外捷径。分组采样比单纯 winner-loser 对更数据高效。
与之前方法区别：标准 DPO 仅挑选单个最优/最差对，HGPO 从一组样本中提取多组偏好对，样本利用率大幅提升。
测试时可控生成（Mixture of Preferences）:
做什么：在推理时通过线性插值两个专家模型的权重来实现场景攻击强度的连续控制。
核心思路：训练两个专家 $\pi_{\theta_{\text{adv}}}$（偏对抗）和 $\pi_{\theta_{\text{real}}}$（偏真实），它们用相反的偏好权重 $w^*$ 从同一预训练模型微调。推理时构造混合模型 $\theta(\lambda) = (1-\lambda)\theta_{\text{real}} + \lambda\theta_{\text{adv}}$，用户通过调节 $\lambda \in [0,1]$ 在 Pareto 前沿上连续滑动，甚至可以外推到 $\lambda > 1$ 生成更极端场景。
设计动机：由于两个专家从同一预训练模型微调（相关任务），线性模式连通性（LMC）假设保证它们处于同一个低损失盆地中，权重线性插值不会穿越高损失区域。
理论保证：Theorem 1 证明插值模型的次优性与两专家权重距离的平方成正比（距离小则差距小）；Proposition 1 证明在奖励景观具有凹性时，权重空间混合优于输出空间集成。
闭环对抗训练中的双轴课程（Dual-Axis Curriculum）:
做什么：将 SAGE 集成到 ego 策略的闭环 RL 训练中，通过渐进式课程防止灾难性遗忘。
核心思路：同时渐进地提升两个维度：(a) 场景强度（通过增大 $\lambda$ 从温和到激进）；(b) 对抗场景出现的频率。确保 ego 模型不会因过度暴露于极端场景而忘记正常驾驶。

损失函数 / 训练策略¶

HGPO 损失函数本质是扩展的 DPO 损失，对所有分组偏好对取期望： $$\mathcal{L}_{\text{HGPO}}(\theta) = \mathbb{E}\left[-\log\sigma\left(\beta\left(\log\frac{\pi_\theta(\tau^w|c)}{\pi_{\text{ref}}(\tau^w|c)} - \log\frac{\pi_\theta(\tau^l|c)}{\pi_{\text{ref}}(\tau^l|c)}\right)\right)\right]$$ 其中 $\beta$ 控制对齐强度，$(\tau^w, \tau^l)$ 来自分层分组采样。

实验关键数据¶

主实验¶

在 MetaDrive 模拟器 + Waymo Open Motion Dataset 上评估，与 6 个 SOTA 基线对比。

方法	攻击成功率↑	对抗奖励↑	行为真实惩罚↓	运动学惩罚↓	越线惩罚↓
Rule	100.00%	5.048	2.798	5.614	7.724
CAT	94.85%	3.961	8.941	3.143	9.078
GOOSE	36.07%	2.378	4.718	21.32	14.48
SAGE (w=1.0)	76.15%	4.121	1.429	2.479	1.084

闭环训练评估（ego 策略质量）：

训练方法	奖励↑	完成率↑	碰撞率↓
SAGE	45.14	0.69	0.31
CAT	37.70	0.58	0.37
Replay	41.32	0.62	0.44
Rule-based	32.99	0.50	0.33

消融实验¶

配置	关键效果	说明
HGPO (完整)	快速收敛 + 高奖励	分组偏好对提供丰富信号
替换为标准 DPO	收敛慢，样本效率低	每场景仅用一对偏好
去除地图硬约束	地图可行率崩溃	模型学习利用捷径
地图作加权惩罚	可行率提升但仍次优	硬/软约束混淆

关键发现¶

SAGE 将地图违规惩罚降低 85%+ 同时保持高攻击成功率，证明解耦硬约束的有效性
权重插值生成的 Pareto 前沿严格优于 logit/轨迹空间混合，经验验证了 LMC 理论和 Proposition 1
闭环训练中 SAGE 训练的 ego 策略在交叉评估中展现最佳泛化性（不同攻击分布下仍保持高完成率）
权重外推（$\lambda > 1$）可生成超越训练凸包的更极端场景

亮点与洞察¶

硬约束解耦设计非常巧妙：将地图合规从连续惩罚提升为二值前提条件，从根本上避免了模型学习"走捷径"的问题。这个思路可以迁移到任何有硬/软约束混合的多目标优化场景中。
LMC 理论在运动生成模型中的验证：首次在运动生成模型上验证了线性模式连通性，并用它解释和证明了权重插值的合理性。这为其他需要多目标控制的生成模型（如图像、文本）提供了理论依据。
双轴课程防止灾难性遗忘：同时渐进调节场景强度和频率的设计使得 ego 策略既学会应对极端场景，又不忘记正常驾驶，这个 trick 可以直接用于其他对抗训练 pipeline。

局限性 / 可改进方向¶

当前框架仅考虑两个目标（对抗性 vs 真实性），扩展到更多目标（如场景新颖性、复杂度）时的权重空间维度增长尚未探索
线性插值依赖 LMC 假设，当专家模型差异过大时可能失效
MetaDrive 模拟器的物理真实性有限，在更高保真度模拟器或真实世界中的效果需进一步验证
可改进方向：基于 ego 策略学习进度的自适应课程（替代手动退火），以及更先进的模型合并技术

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将测试时多目标偏好对齐引入对抗场景生成，理论与实践结合紧密
实验充分度: ⭐⭐⭐⭐⭐ 开环+闭环+交叉评估+消融+理论验证，覆盖全面
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，理论推导严谨，图表信息量大
价值: ⭐⭐⭐⭐⭐ 为自动驾驶安全测试提供了高效且理论可靠的新范式