跳转至

Heterogeneous Adversarial Play in Interactive Environments

会议: NeurIPS 2025 arXiv: 2510.18407 代码: 项目页 领域: 课程学习 / 强化学习 关键词: 对抗课程学习, 异构自博弈, teacher-student, 多任务RL, 自适应课程

一句话总结

提出 HAP(Heterogeneous Adversarial Play),将教师-学生交互形式化为极小极大博弈:教师网络自动生成针对学生弱点的挑战任务,学生策略不断适应进化,形成无需手工设计的自适应课程——在多任务 RL 环境中超越 SOTA 基线,且生成的课程对人类学习者同样有效。

研究背景与动机

自动课程学习(ACL)的困境

  1. 传统 CL 依赖手工预定义的任务难度层级,无法适应学习者能力变化
  2. 现有 ACL 方法单向运作(仅选择任务或评估难度),缺乏教师-学生间的双向反馈
  3. 对称自博弈(Self-Play)要求智能体角色相同,不适用于天然不对称的教学场景

认知科学启示:有效教学需要: - 个性化与自适应的任务选择("假设空间导航") - 基于学习者理解状态动态更新教学策略 - 双向反馈闭环

方法详解

极小极大优化框架

学生最大化累积奖励:

\[\max_\theta J_{\text{student}}(\theta) = \mathbb{E}_{T \sim p_\phi(T)} \left[\mathbb{E}_{\tau \sim \pi(\cdot|T;\theta)} [R(\tau;T)]\right]\]

教师最小化学生成功率(对抗目标):

\[\max_\phi J_{\text{teacher}}(\phi) = \mathbb{E}_{T \sim p_\phi(T)} \left[\mathbb{E}_{\tau \sim \pi(\cdot|T;\theta)} [-R(\tau;T)]\right]\]

联合构成极小极大博弈:

\[\min_\phi \max_\theta J(\theta, \phi)\]

教师策略梯度

教师作为任务分布生成器,其策略梯度为:

\[\nabla_\phi J_{\text{teacher}}(\phi) = -\mathbb{E}_{T \sim p_\phi(T)} \left[\nabla_\phi \log p_\phi(T) \cdot \mathbb{E}_\tau[R(\tau;T)]\right]\]

直觉:增加学生失败任务的采样概率,减少已掌握任务的采样。

工程稳定化技巧

冷启动:学生先独立探索各任务一段时间,建立基线能力后再启动对抗训练。

任务过载:通过熵正则化避免教师同时分配过多任务:

\[J_{\text{teacher}} = \mathbb{E}_T[-R(\tau;T)] + \lambda \cdot \mathcal{H}(p_\phi(T))\]

灾难遗忘:对任务选择概率设下界,确保已掌握任务仍有最低曝光频率。

交替更新算法

每轮迭代三步: 1. 教师采样任务 \(T \sim p_\phi(T)\) 2. 学生执行策略 \(\pi(\cdot|T;\theta)\),更新 \(\theta \leftarrow \theta + \alpha \nabla_\theta \mathbb{E}_\tau[R(\tau;T)]\) 3. 教师更新 \(\phi \leftarrow \phi - \beta \nabla_\phi \mathbb{E}_T[R(\tau;T)]\)

实验关键数据

多环境多任务评估

算法 Minigrid General CRAFT General Crafter General
DQN 0.407 0.278 0.297
PPO 0.397 0.415 0.387
SAC 0.457 0.413 0.533
DreamerV3 0.493 0.516 0.697
TSCL 0.443 0.307 0.423
EXP3 0.463 0.513 0.490
HAP 0.527 0.562 0.723
Human 0.747 0.802 0.850

困难任务表现(最大差异点)

任务难度 Minigrid Hard CRAFT Hard Crafter Hard
DreamerV3 0.18 0.27 0.52
HAP 0.20 0.31 0.58
Human 0.46 0.66 0.74

HAP 在 CRAFT Hard 任务上比 DreamerV3 高 15%。

对抗动态分析(导航实验)

  • HAP 在约 35k 步达到最优性能,收敛最快
  • 正反馈机制:失败任务采样概率↑→定向技能习得加速
  • 负反馈机制:掌握任务采样概率↓→避免冗余练习
  • 四个难度级别的成功率均匀提升,无基线中常见的"简单-困难"鸿沟

监督学习扩展

在 CIFAR-100(不平衡)和 RTE(噪声标签)上,HAP 与 ScreenerNet/MW-Net 等 SOTA 课程方法竞争力相当。

人类实验

30 名被试在 Minigrid 中对比三种条件:无教程、专家教程、HAP 生成教程。结果:HAP 与专家教程达到相近的最终性能,且 HAP 提供更个性化的自适应调整。

亮点与洞察

  • 异构性是关键创新:突破对称自博弈的限制,教师和学生可有完全不同的架构、目标和能力
  • 双向反馈环:教师根据学生实时进展调整课程,比单向任务选择更高效
  • 跨模态验证:RL→监督学习→人类学习,三重验证对抗课程原则的普适性
  • 自动发现教学策略:HAP 自主发现了与人类教育学一致的策略(脚手架搭建、适应性难度调节)

局限性 / 可改进方向

  1. 在开放世界环境(Crafter)中优势收窄——需探索额外的自主探索机制
  2. 所有算法在极难任务上与人类差距仍大(HAP 最优也只达人类 65%~78%)
  3. 任务空间需预定义(离散任务集),未扩展到连续任务参数化
  4. 熵正则和概率下界是启发式设计,缺乏收敛性理论保证
  5. 教师网络仅输出任务分布,未生成任务本身(不是真正的程序化生成)

评分

  • 新颖性: ⭐⭐⭐⭐ — 异构对抗博弈用于课程学习的形式化清晰且有启发性
  • 技术深度: ⭐⭐⭐ — 核心是标准 REINFORCE + 极小极大,理论分析偏薄
  • 实验充分度: ⭐⭐⭐⭐⭐ — 三种 RL 环境+监督学习+人类实验,全面扎实
  • 实用性: ⭐⭐⭐⭐ — 通用框架可应用于多种多任务学习场景
  • 总体: ⭐⭐⭐⭐

与相关工作的对比

启发与关联

评分