跳转至

SPARC: 用单一策略驾驶100辆未见车辆的OOD泛化

会议: AAAI 2026
arXiv: 2511.09737
代码: https://github.com/bramgrooten/sparc
领域: 强化学习 / 策略泛化 / 自动驾驶
关键词: OOD泛化, 上下文强化学习, 单阶段适应, Gran Turismo, SPARC

一句话总结

提出 SPARC(Single-Phase Adaptation for Robust Control),将 RMA 的两阶段上下文编码与历史适应统一为单阶段训练,在 Gran Turismo 7 高保真赛车模拟器中用单一策略驾驶100+未见车辆实现SOTA OOD泛化性能。

研究背景与动机

深度强化学习在机器人、核聚变控制、赛车模拟器中取得成功,但泛化到未见环境(OOD上下文)仍是核心挑战。环境条件如摩擦系数、风速、车辆动力学在部署时可能不可预测地变化,导致灾难性失败。

Rapid Motor Adaptation (RMA) 是该方向的代表方法,采用两阶段训练: 1. 用特权上下文信息c训练专家策略的上下文编码器ψ(c)=z,使用强化学习(PPO/QR-SAC) 2. 冻结专家策略,训练基于历史的适应模块φ(h)=ẑ,通过MSE回归编码器输出z 3. 部署时仅使用适应器策略π_ad(不需要特权信息c)

但两阶段方法存在明显不足——实现复杂、需仔细选择第一阶段检查点、不支持straightforward的持续学习、中间模型选择需多维评估。

SPARC 的核心洞察:将两阶段合并为单阶段同时训练,上下文编码z是非平稳目标(moving target),但适应器能够处理这种学习动态

方法详解

整体框架

同时训练两个策略网络: - 专家策略 π_ex:接收观测o + 特权上下文信息c,内含上下文编码器ψ(c)=z,用 QR-SAC(32 quantiles)强化学习训练 - 适应器策略 π_ad:接收观测o + 历史h(H=50步obs-action对),内含历史适应器φ(h)=ẑ,φ通过MSE监督回归ψ的输出z

两者共享后端决策网络架构。π_ad 定期从 π_ex 复制权重(除了φ模块)。测试时仅部署 π_ad(不需要特权信息c)。评估使用 BIAI ratio(RL智能体圈速/内建AI圈速,越低越好)。

关键设计

  1. 单阶段训练:与 RMA 不同,SPARC 在同一训练循环中同时更新 π_ex(RL目标)和 φ(MSE目标 L_φ = E[(z - ẑ)²])。z = ψ(c) 对φ而言是非平稳目标,但实验表明适应器能追踪这一动态目标。关键优势:无需选择第一阶段最优检查点、支持无限期持续训练、自然兼容分布式异步训练系统。
  2. 适应器收集经验:由 π_ad(而非 π_ex)在环境中行动收集经验。这使 π_ad 的学习更接近 on-policy 设定,允许它在部署前纠正自身的推理不准确性。消融实验证实此选择在多数OOD设置上更优。这一设计使训练-部署分布更一致——π_ad 在训练时就面对自身不完美推理带来的状态分布。
  3. 网络架构:历史适应器φ使用1D CNN(kernel=8,5,5; stride=4,1,1)+ FC层处理H步(观测,动作)对。上下文编码器ψ和φ的输出维度相同,拼接到观测嵌入ℓ后送入决策层(2048维FC×2 → 2维控制输出:油门/刹车 + 转向角)。评论网络与专家策略同架构,有权访问上下文c。

损失函数

  • RL损失(π_ex):QR-SAC(Quantile Regression Soft Actor-Critic),32 quantiles
  • 适应器损失:L_φ = E[(z - ẑ)²],MSE回归专家的上下文编码
  • 训练配置:Gran Turismo 9M步(Nürburgring 12M步),MuJoCo 3M步。分布式异步训练最多20台PlayStation同时采集,A100 GPU计算。单次GT7运行约6天

实验关键数据

主实验:Gran Turismo 7 赛道性能

赛道 指标 SPARC RMA History Input Only Obs Oracle
Grand Valley OOD BIAI ratio↓ 1.049 1.056 1.083 1.064 1.135
Grand Valley OOD 成功率↑ 98.1% 97.1% 92.6% 95.2% 90.9%
Nürburgring OOD BIAI ratio↓ 1.120 1.300 1.120 1.175 1.118
Nürburgring OOD 成功率↑ 89.0% 78.0% 86.7% 81.9% 89.6%
Catalunya OOD BIAI ratio↓ 0.963 0.967 0.955 0.956 1.135
Catalunya OOD 成功率↑ 100% 100% 99.3% 100% 85.3%

消融实验

配置 GV OOD ratio↓ Nür OOD ratio↓ 说明
SPARC (π_ad收集) 1.049 1.120 默认配置
SPARC (π_ex收集) 1.069 1.099 部分赛道更优但整体一致性差
History H=50 1.049 最优历史长度
History H=10 1.067 信息量不足以推断上下文
History H=100 1.055 过长反而分散注意力
MuJoCo HalfCheetah SPARC: 10018 vs RMA 9034 (+10.9%)
Power&Mass 实验 0.991 超越Oracle (0.996)

关键发现

  • SPARC 在 Power&Mass 实验中超越 Oracle(0.991 vs 0.996),说明历史推理比显式上下文编码更鲁棒
  • Oracle(有特权信息)在OOD时反而表现差(Grand Valley 1.135),过拟合训练车辆分布
  • 物理引擎更新后 zero-shot 迁移:SPARC 性能退化最小,证明学到了可迁移的上下文表示
  • 适应器策略收集经验让训练-部署状态分布更一致,形成更紧密的训练-部署对齐
  • 3赛道×100+OOD车辆的大规模实验设计在context-adaptive RL领域极为罕见

亮点与洞察

  • 极度简洁:消除两阶段训练、中间检查点选择、分离式训练流程,单循环完成一切
  • 超越带特权信息的Oracle证明了历史推理的价值——in-context上下文适应可以比显式上下文编码更鲁棒
  • 在GT7物理引擎更新后仍保持鲁棒(zero-shot transfer),说明学到了车辆动力学的抽象表示
  • 由π_ad收集经验的洞察——接近on-policy更利于最终部署的策略质量
  • 天然兼容异步分布式计算和持续学习,部署友好

局限性

  • 仅在模拟器中验证,未在物理机器人上测试sim-to-real迁移
  • Gran Turismo代码基于专有平台不开源,仅MuJoCo部分可复现
  • 历史长度H=50是全局超参,未按环境复杂度自适应调整
  • 训练计算成本高(单次GT7运行约6天,需20台PlayStation)
  • 未与meta-RL方法(MAML等)直接对比

相关工作与启发

  • vs RMA:单阶段 vs 两阶段,OOD更优且天然支持持续学习
  • vs Domain Randomization (Only Obs):显式利用上下文先验带来系统性改善
  • vs Oracle:SPARC超越Oracle的现象提示——上下文推理比直接获得上下文信息更稳健
  • 单阶段适应思路可推广至机器人locomotion、无人机控制、工业机器人等需context-adaptive RL的场景

评分

⭐⭐⭐⭐⭐ (5/5) 方法简洁有效,在极具挑战性的 Gran Turismo 7 环境中展示了令人印象深刻的 OOD 泛化。实验极其全面——3赛道×500车辆 + MuJoCo + 物理引擎迁移 + 详细消融。