Regret-Guided Search Control for Efficient Learning in AlphaZero¶
会议: ICLR 2026
arXiv: 2602.20809
代码: Project Page
领域: human_understanding / 强化学习与博弈
关键词: AlphaZero, search control, regret network, MCTS, board games
一句话总结¶
提出 RGSC(Regret-Guided Search Control)框架,通过训练一个 regret 网络识别高遗憾值状态并优先从这些状态重新开始自我对弈,模拟人类"反复复盘错误"的学习方式,在 9×9 围棋、10×10 黑白棋和 11×11 Hex 上平均超越 AlphaZero 77 Elo。
研究背景与动机¶
- 学习效率差距:AlphaZero 需要数百万局自我对弈才能达到超人水平,而人类棋手通过远少的对局就能获得可比的棋力,关键区别在于学习方式不同。
- 人类学习模式:人类棋手不会每次都从头开始下完整棋局,而是反复复盘关键位置(犯错的地方),直到弱点被纠正。AlphaZero 则总是从空棋盘开始,对所有位置均匀更新。
- Search Control 的概念:Sutton & Barto 在 Dyna 框架中提出的 search control 思想——选择有价值的状态作为模拟经验的起点,而非总是从初始状态开始。
- Go-Exploit 的局限:先前工作 Go-Exploit 实现了从历史状态重启自我对弈,但采用均匀采样,无法区分状态的学习价值。随着训练推进,大多数状态已被掌握,均匀采样效率急剧下降。
- 非平稳性挑战:高遗憾状态在被反复访问后其遗憾值会下降,直接预测遗憾值面临分布严重不平衡和目标非平稳的双重困难。
方法详解¶
整体框架¶
RGSC 在 AlphaZero 基础上扩展三个核心组件: 1. Regret 定义:量化棋局中每个状态的遗憾值(智能体评估与真实结果的偏差)。 2. Regret 网络:包含排名网络和值网络两部分,识别高遗憾状态。 3. 优先遗憾缓冲区(PRB):存储和管理高遗憾状态,通过 softmax 分布采样作为自我对弈的起始位置。
关键设计¶
设计 1:Regret 定义
- 做什么:为棋局中的每个状态定义遗憾值。
- 核心思路:遗憾值 R(st) 定义为从状态 st 到终局 sT,所选动作的 MCTS 评估值与实际结果之间的平均平方偏差:
R(st) = (1/(T-t)) Σ(V_selected(si) - z)²。 - 设计动机:捕捉那些智能体评估与实际结果偏差最大的状态——这些正是智能体尚未掌握的关键位置,具有最高的学习潜力。
设计 2:Regret 排名网络
- 做什么:学习对状态按遗憾值进行排名,而非直接预测遗憾值。
- 核心思路:输出未归一化的排名分数 γs,通过 softmax 转化为重启分布 ρ(s|S)。优化目标是最大化 J_rank = Σ ρ(s|S)·R(s),使高遗憾状态获得高采样概率。实际使用代理损失 L_rank = -log Σ exp(log softmax(γs) + R(s))。
- 设计动机:直接预测遗憾值面临严重的分布不平衡(大多数状态遗憾接近零)和非平稳性(高遗憾状态被纠正后遗憾下降)。排名目标只需找出相对最高遗憾的状态即可,大大降低了学习难度。
设计 3:Regret 值网络
- 做什么:估计 MCTS 搜索树内部节点的遗憾值。
- 核心思路:对于自我对弈轨迹上的状态可以直接计算遗憾值,但搜索树内部节点没有完整轨迹信息。值网络提供这些节点的遗憾值估计。
- 设计动机:搜索树中可能包含轨迹之外的高遗憾状态(因为 MCTS 探索过但未实际走到),利用这些状态可以获得更多样化的重启位置。
设计 4:优先遗憾缓冲区(PRB)
- 做什么:维护固定容量 K 的高遗憾状态集合,作为自我对弈的重启点。
- 核心思路:每局自我对弈后,排名网络选出最高排名状态,仅当其遗憾值高于 PRB 中最低遗憾状态时才加入。采样时使用 softmax 分布 P(si) ∝ R(si)^(1/τ) 优先选择高遗憾状态。重启后通过 EMA 更新遗憾值:R_new ← (1-α)·R_old + α·R。
- 设计动机:EMA 更新避免遗憾值骤降,确保只有智能体真正掌握该状态后其遗憾才会逐渐衰减,模拟人类反复复盘直到完全理解的过程。
损失函数 / 训练策略¶
- 排名损失:
L_rank = -log Σ exp(log softmax(γs) + R(s))—— 通过指数变换保持排名顺序,引导模型将高概率分配给高遗憾状态。 - 值损失:标准 MSE 回归损失,预测状态的遗憾值。
- 自我对弈策略:以概率 1-λ 从空棋盘开始,概率 λ 从 PRB 中采样状态重启。
- 训练集成:排名网络和值网络作为 AlphaZero 网络的额外输出头(regret head),计算开销极小。
实验关键数据¶
主实验¶
三种棋类游戏的 Elo 提升(300 iterations,每种 ~150 A6000 GPU hours):
| 游戏 | AlphaZero | Go-Exploit | RGSC | RGSC vs AZ | RGSC vs GE |
|---|---|---|---|---|---|
| 9×9 Go | 1000 (ref) | +低 | +76 Elo | +76 | +96 |
| 10×10 Othello | 1000 (ref) | +20 | +70 Elo | +70 | +50 |
| 11×11 Hex | 1000 (ref) | -38 | +84 Elo | +84 | +122 |
对战外部强程序的胜率:
| 游戏 | 对手 | AlphaZero | Go-Exploit | RGSC |
|---|---|---|---|---|
| 9×9 Go | KataGo | 45.5% | 49.5% | 53.6% |
| 10×10 Othello | Ludii α-β | 51.7% | 52.9% | 57.8% |
| 11×11 Hex | MoHex | 83.6% | 89.2% | 91.1% |
消融实验¶
排名网络 vs 值网络的状态选择质量:
| 方法 | 9×9 Go avg regret | 10×10 Othello avg regret | 效果 |
|---|---|---|---|
| Go-Exploit (均匀) | 最低 | 最低 | 基线 |
| Regret Value Net | 中等 | 中等 | 次优 |
| Regret Ranking Net | 最高 | 最高 | 最优 |
在已训练好的模型上继续训练(15-block,9×9 Go,40 iterations):
| 方法 | 对 KataGo 胜率 |
|---|---|
| 基线(训练前) | 69.3% ± 2.6% |
| AlphaZero 继续训练 | 70.2% ± 2.7%(几乎无提升) |
| Go-Exploit | 69.2% ± 2.7%(无提升) |
| RGSC | 78.2% ± 2.5%(+8.9%) |
关键发现¶
- Go-Exploit 后期失效:Go-Exploit 在训练前期有效(大量状态未被掌握),但后期随着掌握状态增加,均匀采样的效率急剧下降,甚至不如 AlphaZero。
- 排名优于回归:排名网络始终选出遗憾值更高的状态,验证了在非平稳、不平衡分布下排名目标优于直接值回归。
- PRB 中的遗憾值确实下降:所有游戏中,状态入 PRB 时的平均遗憾显著高于被移除时(Go: 0.655→0.296),证明 RGSC 确实纠正了错误。
- 强模型仍可提升:RGSC 在已经训练良好的模型上继续提升了 8.9% 的胜率,而 AlphaZero 和 Go-Exploit 均停滞。
亮点与洞察¶
- 模拟人类学习的优雅实现:人类反复复盘错误的学习方式被自然地转化为 regret-guided search control,动机清晰、实现简洁。
- 排名目标的巧妙设计:绕过了直接预测非平稳目标的困难,只需区分相对大小即可,大幅降低了学习难度。
- 搜索树内部节点的利用:不仅利用轨迹上的状态,还利用 MCTS 探索但未实际走到的状态,扩大了可重启状态的多样性。
- 极小的额外开销:regret network 只是 AlphaZero 网络的两个额外输出头,随着 block 数增加,开销可忽略。
- 通用性潜力:初步实验表明 RGSC 可应用于 MuZero(Pac-Man),暗示其适用于更广泛的 RL 场景。
局限性 / 可改进方向¶
- 仅验证于棋类游戏:棋类是确定性、完全信息游戏,RGSC 在随机环境或不完全信息场景下的效果需进一步验证。
- 遗憾定义的局限:当前遗憾定义基于 MCTS 评估与结果的偏差,在连续控制任务中如何定义遗憾需要新的设计。
- PRB 容量固定:固定大小的缓冲区在复杂游戏中可能不足以覆盖所有关键状态。
- 未探索 19×19 围棋:文章在 9×9 围棋上验证,但更大棋盘上的扩展性仍待验证。
相关工作与启发¶
- Go-Exploit:首次在 AlphaZero 中系统性地研究 search control,但均匀采样的局限性被 RGSC 的优先采样所克服。
- KataGo 的随机开局策略启发了从非初始状态开始训练的思路。
- Prioritized Experience Replay:RGSC 的 PRB 某种程度上是经验回放优先采样在搜索控制层面的推广。
- 启发:regret-guided 的思想可推广到其他需要集中学习困难样本的场景,如课程学习、主动学习等。
评分¶
- 新颖性: ⭐⭐⭐⭐ regret ranking network 的设计新颖,解决非平稳目标预测的方式巧妙;但整体思路是 PER 思想在 search control 的自然延伸
- 实验充分度: ⭐⭐⭐⭐⭐ 三种棋类游戏全面验证,包含对强开源程序的胜率评估、排名vs值网络消融、已训练模型继续提升实验
- 写作质量: ⭐⭐⭐⭐ 动机讲述清晰(人类vs机器学习对比图直观),方法推导完整,实验展示清楚
- 价值: ⭐⭐⭐⭐ 为 AlphaZero 训练效率提升提供了简洁有效的方案,有推广到更广泛 RL 场景的潜力