Heterogeneous Adversarial Play in Interactive Environments¶
会议: NeurIPS 2025 arXiv: 2510.18407 代码: 项目页 领域: 课程学习 / 强化学习 关键词: 对抗课程学习, 异构自博弈, teacher-student, 多任务RL, 自适应课程
一句话总结¶
提出 HAP(Heterogeneous Adversarial Play),将教师-学生交互形式化为极小极大博弈:教师网络自动生成针对学生弱点的挑战任务,学生策略不断适应进化,形成无需手工设计的自适应课程——在多任务 RL 环境中超越 SOTA 基线,且生成的课程对人类学习者同样有效。
研究背景与动机¶
自动课程学习(ACL)的困境:
- 传统 CL 依赖手工预定义的任务难度层级,无法适应学习者能力变化
- 现有 ACL 方法单向运作(仅选择任务或评估难度),缺乏教师-学生间的双向反馈
- 对称自博弈(Self-Play)要求智能体角色相同,不适用于天然不对称的教学场景
认知科学启示:有效教学需要: - 个性化与自适应的任务选择("假设空间导航") - 基于学习者理解状态动态更新教学策略 - 双向反馈闭环
方法详解¶
极小极大优化框架¶
学生最大化累积奖励:
教师最小化学生成功率(对抗目标):
联合构成极小极大博弈:
教师策略梯度¶
教师作为任务分布生成器,其策略梯度为:
直觉:增加学生失败任务的采样概率,减少已掌握任务的采样。
工程稳定化技巧¶
冷启动:学生先独立探索各任务一段时间,建立基线能力后再启动对抗训练。
任务过载:通过熵正则化避免教师同时分配过多任务:
灾难遗忘:对任务选择概率设下界,确保已掌握任务仍有最低曝光频率。
交替更新算法¶
每轮迭代三步: 1. 教师采样任务 \(T \sim p_\phi(T)\) 2. 学生执行策略 \(\pi(\cdot|T;\theta)\),更新 \(\theta \leftarrow \theta + \alpha \nabla_\theta \mathbb{E}_\tau[R(\tau;T)]\) 3. 教师更新 \(\phi \leftarrow \phi - \beta \nabla_\phi \mathbb{E}_T[R(\tau;T)]\)
实验关键数据¶
多环境多任务评估¶
| 算法 | Minigrid General | CRAFT General | Crafter General |
|---|---|---|---|
| DQN | 0.407 | 0.278 | 0.297 |
| PPO | 0.397 | 0.415 | 0.387 |
| SAC | 0.457 | 0.413 | 0.533 |
| DreamerV3 | 0.493 | 0.516 | 0.697 |
| TSCL | 0.443 | 0.307 | 0.423 |
| EXP3 | 0.463 | 0.513 | 0.490 |
| HAP | 0.527 | 0.562 | 0.723 |
| Human | 0.747 | 0.802 | 0.850 |
困难任务表现(最大差异点)¶
| 任务难度 | Minigrid Hard | CRAFT Hard | Crafter Hard |
|---|---|---|---|
| DreamerV3 | 0.18 | 0.27 | 0.52 |
| HAP | 0.20 | 0.31 | 0.58 |
| Human | 0.46 | 0.66 | 0.74 |
HAP 在 CRAFT Hard 任务上比 DreamerV3 高 15%。
对抗动态分析(导航实验)¶
- HAP 在约 35k 步达到最优性能,收敛最快
- 正反馈机制:失败任务采样概率↑→定向技能习得加速
- 负反馈机制:掌握任务采样概率↓→避免冗余练习
- 四个难度级别的成功率均匀提升,无基线中常见的"简单-困难"鸿沟
监督学习扩展¶
在 CIFAR-100(不平衡)和 RTE(噪声标签)上,HAP 与 ScreenerNet/MW-Net 等 SOTA 课程方法竞争力相当。
人类实验¶
30 名被试在 Minigrid 中对比三种条件:无教程、专家教程、HAP 生成教程。结果:HAP 与专家教程达到相近的最终性能,且 HAP 提供更个性化的自适应调整。
亮点与洞察¶
- 异构性是关键创新:突破对称自博弈的限制,教师和学生可有完全不同的架构、目标和能力
- 双向反馈环:教师根据学生实时进展调整课程,比单向任务选择更高效
- 跨模态验证:RL→监督学习→人类学习,三重验证对抗课程原则的普适性
- 自动发现教学策略:HAP 自主发现了与人类教育学一致的策略(脚手架搭建、适应性难度调节)
局限性 / 可改进方向¶
- 在开放世界环境(Crafter)中优势收窄——需探索额外的自主探索机制
- 所有算法在极难任务上与人类差距仍大(HAP 最优也只达人类 65%~78%)
- 任务空间需预定义(离散任务集),未扩展到连续任务参数化
- 熵正则和概率下界是启发式设计,缺乏收敛性理论保证
- 教师网络仅输出任务分布,未生成任务本身(不是真正的程序化生成)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 异构对抗博弈用于课程学习的形式化清晰且有启发性
- 技术深度: ⭐⭐⭐ — 核心是标准 REINFORCE + 极小极大,理论分析偏薄
- 实验充分度: ⭐⭐⭐⭐⭐ — 三种 RL 环境+监督学习+人类实验,全面扎实
- 实用性: ⭐⭐⭐⭐ — 通用框架可应用于多种多任务学习场景
- 总体: ⭐⭐⭐⭐