SPARC: 用单一策略驾驶100辆未见车辆的OOD泛化¶

会议: AAAI 2026
arXiv: 2511.09737
代码: https://github.com/bramgrooten/sparc
领域: 强化学习 / 策略泛化 / 自动驾驶
关键词: OOD泛化, 上下文强化学习, 单阶段适应, Gran Turismo, SPARC

一句话总结¶

提出 SPARC（Single-Phase Adaptation for Robust Control），将 RMA 的两阶段上下文编码与历史适应统一为单阶段训练，在 Gran Turismo 7 高保真赛车模拟器中用单一策略驾驶100+未见车辆实现SOTA OOD泛化性能。

研究背景与动机¶

深度强化学习在机器人、核聚变控制、赛车模拟器中取得成功，但泛化到未见环境（OOD上下文）仍是核心挑战。环境条件如摩擦系数、风速、车辆动力学在部署时可能不可预测地变化，导致灾难性失败。

Rapid Motor Adaptation (RMA) 是该方向的代表方法，采用两阶段训练： 1. 用特权上下文信息c训练专家策略的上下文编码器ψ(c)=z，使用强化学习（PPO/QR-SAC） 2. 冻结专家策略，训练基于历史的适应模块φ(h)=ẑ，通过MSE回归编码器输出z 3. 部署时仅使用适应器策略π_ad（不需要特权信息c）

但两阶段方法存在明显不足——实现复杂、需仔细选择第一阶段检查点、不支持straightforward的持续学习、中间模型选择需多维评估。

SPARC 的核心洞察：将两阶段合并为单阶段同时训练，上下文编码z是非平稳目标（moving target），但适应器能够处理这种学习动态。

方法详解¶

整体框架¶

同时训练两个策略网络： - 专家策略 π_ex：接收观测o + 特权上下文信息c，内含上下文编码器ψ(c)=z，用 QR-SAC（32 quantiles）强化学习训练 - 适应器策略 π_ad：接收观测o + 历史h（H=50步obs-action对），内含历史适应器φ(h)=ẑ，φ通过MSE监督回归ψ的输出z

两者共享后端决策网络架构。π_ad 定期从 π_ex 复制权重（除了φ模块）。测试时仅部署 π_ad（不需要特权信息c）。评估使用 BIAI ratio（RL智能体圈速/内建AI圈速，越低越好）。

关键设计¶

单阶段训练：与 RMA 不同，SPARC 在同一训练循环中同时更新 π_ex（RL目标）和 φ（MSE目标 L_φ = E[(z - ẑ)²]）。z = ψ(c) 对φ而言是非平稳目标，但实验表明适应器能追踪这一动态目标。关键优势：无需选择第一阶段最优检查点、支持无限期持续训练、自然兼容分布式异步训练系统。
适应器收集经验：由 π_ad（而非 π_ex）在环境中行动收集经验。这使 π_ad 的学习更接近 on-policy 设定，允许它在部署前纠正自身的推理不准确性。消融实验证实此选择在多数OOD设置上更优。这一设计使训练-部署分布更一致——π_ad 在训练时就面对自身不完美推理带来的状态分布。
网络架构：历史适应器φ使用1D CNN（kernel=8,5,5; stride=4,1,1）+ FC层处理H步(观测,动作)对。上下文编码器ψ和φ的输出维度相同，拼接到观测嵌入ℓ后送入决策层（2048维FC×2 → 2维控制输出：油门/刹车 + 转向角）。评论网络与专家策略同架构，有权访问上下文c。

损失函数¶

RL损失（π_ex）：QR-SAC（Quantile Regression Soft Actor-Critic），32 quantiles
适应器损失：L_φ = E[(z - ẑ)²]，MSE回归专家的上下文编码
训练配置：Gran Turismo 9M步（Nürburgring 12M步），MuJoCo 3M步。分布式异步训练最多20台PlayStation同时采集，A100 GPU计算。单次GT7运行约6天

实验关键数据¶

主实验：Gran Turismo 7 赛道性能¶

赛道	指标	SPARC	RMA	History Input	Only Obs	Oracle
Grand Valley	OOD BIAI ratio↓	1.049	1.056	1.083	1.064	1.135
Grand Valley	OOD 成功率↑	98.1%	97.1%	92.6%	95.2%	90.9%
Nürburgring	OOD BIAI ratio↓	1.120	1.300	1.120	1.175	1.118
Nürburgring	OOD 成功率↑	89.0%	78.0%	86.7%	81.9%	89.6%
Catalunya	OOD BIAI ratio↓	0.963	0.967	0.955	0.956	1.135
Catalunya	OOD 成功率↑	100%	100%	99.3%	100%	85.3%

消融实验¶

配置	GV OOD ratio↓	Nür OOD ratio↓	说明
SPARC (π_ad收集)	1.049	1.120	默认配置
SPARC (π_ex收集)	1.069	1.099	部分赛道更优但整体一致性差
History H=50	1.049	—	最优历史长度
History H=10	1.067	—	信息量不足以推断上下文
History H=100	1.055	—	过长反而分散注意力
MuJoCo HalfCheetah	SPARC: 10018	—	vs RMA 9034 (+10.9%)
Power&Mass 实验	0.991	—	超越Oracle (0.996)

关键发现¶

SPARC 在 Power&Mass 实验中超越 Oracle（0.991 vs 0.996），说明历史推理比显式上下文编码更鲁棒
Oracle（有特权信息）在OOD时反而表现差（Grand Valley 1.135），过拟合训练车辆分布
物理引擎更新后 zero-shot 迁移：SPARC 性能退化最小，证明学到了可迁移的上下文表示
适应器策略收集经验让训练-部署状态分布更一致，形成更紧密的训练-部署对齐
3赛道×100+OOD车辆的大规模实验设计在context-adaptive RL领域极为罕见

亮点与洞察¶

极度简洁：消除两阶段训练、中间检查点选择、分离式训练流程，单循环完成一切
超越带特权信息的Oracle证明了历史推理的价值——in-context上下文适应可以比显式上下文编码更鲁棒
在GT7物理引擎更新后仍保持鲁棒（zero-shot transfer），说明学到了车辆动力学的抽象表示
由π_ad收集经验的洞察——接近on-policy更利于最终部署的策略质量
天然兼容异步分布式计算和持续学习，部署友好

局限性¶

仅在模拟器中验证，未在物理机器人上测试sim-to-real迁移
Gran Turismo代码基于专有平台不开源，仅MuJoCo部分可复现
历史长度H=50是全局超参，未按环境复杂度自适应调整
训练计算成本高（单次GT7运行约6天，需20台PlayStation）
未与meta-RL方法（MAML等）直接对比

评分¶

⭐⭐⭐⭐⭐ (5/5) 方法简洁有效，在极具挑战性的 Gran Turismo 7 环境中展示了令人印象深刻的 OOD 泛化。实验极其全面——3赛道×500车辆 + MuJoCo + 物理引擎迁移 + 详细消融。