ICML 2025 LLM对齐 assistance game AlphaZero MCTS human modeling Minecraft cooperative AI POMDP

AssistanceZero: Scalably Solving Assistance Games¶

会议: ICML 2025
arXiv: 2504.07091
代码: https://github.com/cassidylaidlaw/minecraft-building-assistance-game
领域: 对齐RLHF
关键词: assistance game, AlphaZero, MCTS, human modeling, Minecraft, cooperative AI, POMDP

一句话总结¶

提出 AssistanceZero，首次将 assistance game 扩展到复杂环境（Minecraft 建筑辅助，\(10^{400}\) 种可能目标），通过扩展 AlphaZero 增加 reward 预测头和人类行为预测头，在 MCTS 下进行不确定性规划，显著优于 PPO 和模仿学习基线，人类实验证明能有效减少用户操作并展现挖地基、推断屋顶、从纠正中学习等涌现行为。

研究背景与动机¶

RLHF 的局限性¶

当前主流 AI 助手训练范式（预训练 + SFT + RLHF）存在结构性问题：

欺骗激励：标注者可被欺骗给出正向反馈，激励模型产生欺骗/操纵行为

不鼓励不确定性维护：单轮高评分的目标不鼓励助手询问澄清问题或对冲回答

非协作性：自动补全类助手（如 Copilot）无法考虑人机协作的互补性——助手行为应与用户行为互补而非替代

Assistance Game 的优势¶

Assistance game 是一个双人博弈：助手和用户在共享环境中行动，共享 reward function，但助手无法观测目标参数 \(\theta\)。这一框架：

去除欺骗激励（reward 依赖真实隐含 reward 而非人类反馈）
激励助手通过交互解决不确定性
产生与用户行动互补的最优联合行为

为何 Assistance Game 此前未被广泛研究？¶

两大挑战：(1) 不确定性下的决策问题计算上不可解；(2) 需要准确的人类行为模型。此前工作仅限于 ≤10 个离散 reward 参数的简单环境。

方法详解¶

整体框架¶

环境设计：Minecraft Building Assistance Game (MBAG)

状态：3D 方块网格（11×10×10）+ 玩家位置 + 背包
动作空间：无操作、六方向移动、放置方块、打破方块（>20,000 种可能动作）
目标参数 \(\theta\)：目标建筑的方块网格（基于 CraftAssist 数据集）
\(|\Theta| \approx 10^{400}\)——远超此前工作的不到 20 种
Reward \(R(s, a_H, a_R; \theta) = d(s', \theta) - d(s, \theta)\)（编辑距离变化）

关键设计¶

PPO 失败分析：PPO 在 MBAG 上几乎不起作用（assistant goal % ≈ 0%）。原因：

reward 信号高度噪声化（reward 同时依赖人类和助手动作）
即使期望有益的动作也可能得到负 reward（因目标不确定）
长序列决策进一步放大 reward-to-go 噪声
PPO 学到的主信号是"放置/打破 = 负 reward"→收敛到什么都不做

AssistanceZero 的核心思想：将目标预测与行动选择分离

循环神经网络具有四个头： 1. 策略头 \(\pi_\phi(a_R | h)\)：选择助手动作 2. 价值头 \(\hat{V}_\phi(h)\)：估计状态价值 3. Reward 参数预测头 \(\hat{p}_\phi(\theta | h)\)：预测目标建筑每个位置的方块类型分布 4. 人类动作预测头 \(\hat{p}_\phi(a_H | h)\)：预测人类下一步动作

MCTS 通过采样 reward 参数和人类动作来模拟未来轨迹，实现不确定性下的规划。

损失函数/训练策略¶

AssistanceZero 的完整损失函数：

\[L(\phi) = \frac{1}{n} \sum_{t=1}^{n} \left[ \lambda_{\text{policy}} D_{\text{KL}}(\pi_t^{\text{MCTS}} \| \pi_\phi(\cdot|h_t)) + \lambda_{\text{value}} (\hat{V}_\phi(h_t) - \sum_{t'=t}^{T} \gamma^{t'-t} R_{t'})^2 - \lambda_{\text{reward}} \log \hat{p}_\phi(\theta|h_t) + \lambda_{\text{prev-rew}} D_{\text{KL}}(\hat{p}_\phi(\theta|h_t) \| \hat{p}_t(\theta)) - \lambda_{\text{action}} \log \hat{p}_\phi(a_H^t | h_t) \right]\]

五项损失分别训练四个头，其中 \(\lambda_{\text{prev-rew}}\) 项防止 reward 预测头过拟合到最近见到的目标。

MCTS 的 reward 估计中使用低方差技巧：利用 reward 可分解为 \(R = R_H + R_R\)，助手 reward 用当前时刻估计，人类 reward 用下一时刻估计。

人类建模： - Reward-based（PPO/AlphaZero）：预测差、建造过快 - BC（行为克隆）：准确预测但累积误差 - piKL（最优选择）：MCTS + BC 先验策略，平衡预测准确性和任务表现

实验关键数据¶

主实验¶

Table 1：固定人类模型评估

方法	总目标完成率	人类动作数	助手完成率
PPO baseline	71.6%	203	0.0%
PPO + reward engineering	74.0%	200	3.5%
PPO + aux loss	74.1%	191	7.2%
AssistanceZero	79.8%	158	27.0%
人类模型独自	70.8%	200	—

AssistanceZero 减少 42 次人类动作，助手自主完成 27% 目标。

Table 3：不同训练范式对比

方法	总目标完成率	人类动作数	助手完成率
Pretraining（类 Copilot）	89.8%	240	2.3%
SFT（类 RLHF 第一阶段）	90.4%	241	2.9%
Assistance Game	92.6%	179	26.0%

消融实验¶

移除 LSTM：目标率从 77.5% 暴降至 69.0%，助手完成率从 25.2% 降至 -0.6%
移除 KL 正则（\(\lambda_{\text{prev-rew}}\)）：目标率从 77.5% 降至 76.8%，助手完成率从 25.2% 降至 18.1%
去除测试时 MCTS：性能不降（80.2% vs 79.8%），说明优势不来自额外推理计算

关键发现¶

人类实验（16 名被试）： - AssistanceZero 助手帮助度评分 3.1/5 vs SFT 1.7/5 vs 人类助手 4.0/5 - 显著减少参与者的放置/打破操作（\(p < 0.05\)） - 涌现行为： - 挖地基：观察人类勾勒轮廓后自动清理内部 - 推断屋顶：从人类开始建造的几块推断屋顶结构并完成 - 从纠正学习：建墙太高时，人类打掉一块，助手自动打掉其余多余方块

亮点与洞察¶

首次将 assistance game 扩展到复杂环境（\(10^{400}\) 种目标），证明其可行性
PPO 失败的深层原因分析精辟：reward 噪声 + 目标预测与行动耦合是核心瓶颈
分离预测与行动的设计理念：AlphaZero 框架天然适合 POMDP 中的 belief 维护
人类建模的实证发现：纯 reward-based 模型不预测人类行为，BC 有累积误差，piKL 是最佳折中
涌现行为展示 assistance game 框架的本质优势——助手学会了语用沟通，而非简单模仿
对 LLM 后训练的展望：将对话视为多轮 assistance game，可解决 RLHF 的欺骗激励和不确定性回避问题

局限与展望¶

环境简化：MBAG 是极度简化的 Minecraft，真实世界复杂度远高于此
人类模型数据量有限：仅 5 名被试 18 个 episode 训练 BC 模型
未与完整 RLHF 对比：因 RLHF 在多智能体环境难以直接应用，仅与 SFT 对比
计算开销：AssistanceZero 需 MCTS 模拟（训练时 100 次/步），计算成本高
人类实验规模：16 名被试，人类助手仅 1 名，统计效力有限
LLM 扩展距离远：从 Minecraft 到 LLM 对话的迁移路径仍是愿景

评分¶

新颖性: ⭐⭐⭐⭐⭐ (首次大规模 assistance game 求解，全新的方法路径)
实验充分度: ⭐⭐⭐⭐ (仿真+人类实验+丰富消融，但人类实验规模有限)
写作质量: ⭐⭐⭐⭐⭐ (论文结构清晰，图示精美，涌现行为展示极有说服力)
价值: ⭐⭐⭐⭐⭐ (开辟 assistance game 大规模应用方向，对 AI 对齐有深远启示)