Regret-Guided Search Control for Efficient Learning in AlphaZero¶

会议: ICLR 2026
arXiv: 2602.20809
代码: Project Page
领域: human_understanding / 强化学习与博弈
关键词: AlphaZero, search control, regret network, MCTS, board games

一句话总结¶

提出 RGSC（Regret-Guided Search Control）框架，通过训练一个 regret 网络识别高遗憾值状态并优先从这些状态重新开始自我对弈，模拟人类"反复复盘错误"的学习方式，在 9×9 围棋、10×10 黑白棋和 11×11 Hex 上平均超越 AlphaZero 77 Elo。

研究背景与动机¶

学习效率差距：AlphaZero 需要数百万局自我对弈才能达到超人水平，而人类棋手通过远少的对局就能获得可比的棋力，关键区别在于学习方式不同。
人类学习模式：人类棋手不会每次都从头开始下完整棋局，而是反复复盘关键位置（犯错的地方），直到弱点被纠正。AlphaZero 则总是从空棋盘开始，对所有位置均匀更新。
Search Control 的概念：Sutton & Barto 在 Dyna 框架中提出的 search control 思想——选择有价值的状态作为模拟经验的起点，而非总是从初始状态开始。
Go-Exploit 的局限：先前工作 Go-Exploit 实现了从历史状态重启自我对弈，但采用均匀采样，无法区分状态的学习价值。随着训练推进，大多数状态已被掌握，均匀采样效率急剧下降。
非平稳性挑战：高遗憾状态在被反复访问后其遗憾值会下降，直接预测遗憾值面临分布严重不平衡和目标非平稳的双重困难。

方法详解¶

整体框架¶

RGSC 在 AlphaZero 基础上扩展三个核心组件： 1. Regret 定义：量化棋局中每个状态的遗憾值（智能体评估与真实结果的偏差）。 2. Regret 网络：包含排名网络和值网络两部分，识别高遗憾状态。 3. 优先遗憾缓冲区（PRB）：存储和管理高遗憾状态，通过 softmax 分布采样作为自我对弈的起始位置。

关键设计¶

设计 1：Regret 定义

做什么：为棋局中的每个状态定义遗憾值。
核心思路：遗憾值 R(st) 定义为从状态 st 到终局 sT，所选动作的 MCTS 评估值与实际结果之间的平均平方偏差：R(st) = (1/(T-t)) Σ(V_selected(si) - z)²。
设计动机：捕捉那些智能体评估与实际结果偏差最大的状态——这些正是智能体尚未掌握的关键位置，具有最高的学习潜力。

设计 2：Regret 排名网络

做什么：学习对状态按遗憾值进行排名，而非直接预测遗憾值。
核心思路：输出未归一化的排名分数 γs，通过 softmax 转化为重启分布 ρ(s|S)。优化目标是最大化 J_rank = Σ ρ(s|S)·R(s)，使高遗憾状态获得高采样概率。实际使用代理损失 L_rank = -log Σ exp(log softmax(γs) + R(s))。
设计动机：直接预测遗憾值面临严重的分布不平衡（大多数状态遗憾接近零）和非平稳性（高遗憾状态被纠正后遗憾下降）。排名目标只需找出相对最高遗憾的状态即可，大大降低了学习难度。

设计 3：Regret 值网络

做什么：估计 MCTS 搜索树内部节点的遗憾值。
核心思路：对于自我对弈轨迹上的状态可以直接计算遗憾值，但搜索树内部节点没有完整轨迹信息。值网络提供这些节点的遗憾值估计。
设计动机：搜索树中可能包含轨迹之外的高遗憾状态（因为 MCTS 探索过但未实际走到），利用这些状态可以获得更多样化的重启位置。

设计 4：优先遗憾缓冲区（PRB）

做什么：维护固定容量 K 的高遗憾状态集合，作为自我对弈的重启点。
核心思路：每局自我对弈后，排名网络选出最高排名状态，仅当其遗憾值高于 PRB 中最低遗憾状态时才加入。采样时使用 softmax 分布 P(si) ∝ R(si)^(1/τ) 优先选择高遗憾状态。重启后通过 EMA 更新遗憾值：R_new ← (1-α)·R_old + α·R。
设计动机：EMA 更新避免遗憾值骤降，确保只有智能体真正掌握该状态后其遗憾才会逐渐衰减，模拟人类反复复盘直到完全理解的过程。

损失函数 / 训练策略¶

排名损失：L_rank = -log Σ exp(log softmax(γs) + R(s)) —— 通过指数变换保持排名顺序，引导模型将高概率分配给高遗憾状态。
值损失：标准 MSE 回归损失，预测状态的遗憾值。
自我对弈策略：以概率 1-λ 从空棋盘开始，概率 λ 从 PRB 中采样状态重启。
训练集成：排名网络和值网络作为 AlphaZero 网络的额外输出头（regret head），计算开销极小。

实验关键数据¶

主实验¶

三种棋类游戏的 Elo 提升（300 iterations，每种 ~150 A6000 GPU hours）：

游戏	AlphaZero	Go-Exploit	RGSC	RGSC vs AZ	RGSC vs GE
9×9 Go	1000 (ref)	+低	+76 Elo	+76	+96
10×10 Othello	1000 (ref)	+20	+70 Elo	+70	+50
11×11 Hex	1000 (ref)	-38	+84 Elo	+84	+122

对战外部强程序的胜率：

游戏	对手	AlphaZero	Go-Exploit	RGSC
9×9 Go	KataGo	45.5%	49.5%	53.6%
10×10 Othello	Ludii α-β	51.7%	52.9%	57.8%
11×11 Hex	MoHex	83.6%	89.2%	91.1%

消融实验¶

排名网络 vs 值网络的状态选择质量：

方法	9×9 Go avg regret	10×10 Othello avg regret	效果
Go-Exploit (均匀)	最低	最低	基线
Regret Value Net	中等	中等	次优
Regret Ranking Net	最高	最高	最优

在已训练好的模型上继续训练（15-block，9×9 Go，40 iterations）：

方法	对 KataGo 胜率
基线（训练前）	69.3% ± 2.6%
AlphaZero 继续训练	70.2% ± 2.7%（几乎无提升）
Go-Exploit	69.2% ± 2.7%（无提升）
RGSC	78.2% ± 2.5%（+8.9%）

关键发现¶

Go-Exploit 后期失效：Go-Exploit 在训练前期有效（大量状态未被掌握），但后期随着掌握状态增加，均匀采样的效率急剧下降，甚至不如 AlphaZero。
排名优于回归：排名网络始终选出遗憾值更高的状态，验证了在非平稳、不平衡分布下排名目标优于直接值回归。
PRB 中的遗憾值确实下降：所有游戏中，状态入 PRB 时的平均遗憾显著高于被移除时（Go: 0.655→0.296），证明 RGSC 确实纠正了错误。
强模型仍可提升：RGSC 在已经训练良好的模型上继续提升了 8.9% 的胜率，而 AlphaZero 和 Go-Exploit 均停滞。

亮点与洞察¶

模拟人类学习的优雅实现：人类反复复盘错误的学习方式被自然地转化为 regret-guided search control，动机清晰、实现简洁。
排名目标的巧妙设计：绕过了直接预测非平稳目标的困难，只需区分相对大小即可，大幅降低了学习难度。
搜索树内部节点的利用：不仅利用轨迹上的状态，还利用 MCTS 探索但未实际走到的状态，扩大了可重启状态的多样性。
极小的额外开销：regret network 只是 AlphaZero 网络的两个额外输出头，随着 block 数增加，开销可忽略。
通用性潜力：初步实验表明 RGSC 可应用于 MuZero（Pac-Man），暗示其适用于更广泛的 RL 场景。

局限性 / 可改进方向¶

仅验证于棋类游戏：棋类是确定性、完全信息游戏，RGSC 在随机环境或不完全信息场景下的效果需进一步验证。
遗憾定义的局限：当前遗憾定义基于 MCTS 评估与结果的偏差，在连续控制任务中如何定义遗憾需要新的设计。
PRB 容量固定：固定大小的缓冲区在复杂游戏中可能不足以覆盖所有关键状态。
未探索 19×19 围棋：文章在 9×9 围棋上验证，但更大棋盘上的扩展性仍待验证。

评分¶

新颖性: ⭐⭐⭐⭐ regret ranking network 的设计新颖，解决非平稳目标预测的方式巧妙；但整体思路是 PER 思想在 search control 的自然延伸
实验充分度: ⭐⭐⭐⭐⭐ 三种棋类游戏全面验证，包含对强开源程序的胜率评估、排名vs值网络消融、已训练模型继续提升实验
写作质量: ⭐⭐⭐⭐ 动机讲述清晰（人类vs机器学习对比图直观），方法推导完整，实验展示清楚
价值: ⭐⭐⭐⭐ 为 AlphaZero 训练效率提升提供了简洁有效的方案，有推广到更广泛 RL 场景的潜力