GAMEBoT: Transparent Assessment of LLM Reasoning in Games¶

会议: ACL 2025
arXiv: 2412.13602
代码: https://github.com/Visual-AI/GAMEBoT
领域: LLM推理
关键词: LLM评测, 游戏推理, 思维链, 中间推理验证, 数据污染

一句话总结¶

本文提出 GAMEBoT，一个基于游戏的 LLM 推理评测平台，通过将游戏中的复杂推理分解为预定义的模块化子问题，结合基于规则的 ground truth 验证，实现对 17 个主流 LLM 的透明化推理能力评估。

研究背景与动机¶

领域现状：随着 LLM 在实际应用中承担越来越多需要复杂推理的任务，对其推理能力的可靠评测变得至关重要。现有 benchmark 如 GSM8K、MATH、MMLU 等从不同角度评测推理能力，但多以静态数据集形式存在。

现有痛点：当前 LLM 推理评测面临三大挑战：(1) 可解释性不足——大多数 benchmark 只评测最终答案的正确性，无法判断模型的推理过程是否正确（可能"歪打正着"）；(2) 性能饱和——MMLU、GSM8K 等热门基准上 SOTA 之间的差距越来越小，区分度下降；(3) 数据污染——静态数据集可能被纳入模型的训练数据中，导致评测结果不可靠。

核心矛盾：理想的推理评测需要同时满足"可解释"（能验证中间推理步骤）、"够难"（区分顶级模型）和"抗污染"（动态生成避免数据泄露）三个条件，但现有方法很难在三者之间取得平衡。

本文目标：设计一个同时满足可解释性、难度和抗数据污染的 LLM 推理评测框架。

切入角度：游戏是推理评测的天然载体——游戏规则定义了明确的推理框架，游戏状态可以形式化表示，每一步决策都涉及多个子推理过程（如棋盘理解、策略规划、对手建模），而且游戏具有天然的动态性（每局不同）。

核心 idea：将游戏中的复杂推理分解为预定义的模块化子问题，为每个子问题设计思维链（CoT）提示和基于规则的 ground truth 生成算法，从而既评测最终决策质量，又验证中间推理步骤的准确性。

方法详解¶

整体框架¶

GAMEBoT 的评测流程为：选择游戏→初始化对局→在每个回合中让 LLM 完成一系列子问题推理→做出动作决策→由游戏引擎执行动作并更新状态→记录中间推理和最终动作→对局结束后统计各维度得分。支持 LLM vs LLM 的对抗模式，进一步降低数据污染风险。

关键设计¶

模块化子问题分解（Modular Subproblem Decomposition）:
- 功能：将游戏中的复杂推理拆分为可验证的原子推理步骤
- 核心思路：对每个游戏环境，分析其决策过程涉及的推理步骤，将其定义为标准化的子问题。例如在黑白棋（Othello）中，分解为：(1) 棋盘状态理解——正确识别当前棋子分布；(2) 合法走法枚举——列出所有可行位置；(3) 位置价值评估——评估每个位置的战略价值；(4) 最终走法选择。每个子问题有明确的输入输出定义，便于独立验证。不同游戏根据其特性有不同的子问题分解方案。
- 设计动机：只看最终动作无法判断推理过程是否正确。一个模型可能"蒙对"最优走法但其中间推理完全错误。分解后可以精确定位模型推理的薄弱环节
领域知识驱动的 CoT 提示设计:
- 功能：利用游戏领域知识引导 LLM 进行结构化推理
- 核心思路：为每个游戏设计一套 CoT 提示，按照子问题的顺序引导 LLM 逐步思考。提示融入了游戏的领域知识——例如在黑白棋中告知角落位置的战略价值，在德州扑克中提供手牌评估的基本框架。这些 CoT 提示不仅帮助 LLM 做出更好的决策，更重要的是让 LLM 的推理过程变得可观测和可分析。即使在给予了详细 CoT 引导的情况下，多数模型的中间推理准确率仍然很低（GPT-4o 仅 0.52），说明 GAMEBoT 的难度足够高。
- 设计动机：CoT 提示有双重目的——既是推理辅助（给模型最好的推理条件），也是评测手段（暴露中间推理步骤供验证）
基于规则的 Ground Truth 生成:
- 功能：为中间推理步骤提供准确的参考答案
- 核心思路：为每个子问题开发基于规则的算法来自动生成 ground truth。例如，合法走法枚举可以通过游戏引擎精确计算，棋盘状态可以通过游戏状态直接获取，位置价值评估可以通过预定义的启发式规则或搜索算法（如 minimax）计算。这些 ground truth 是精确的（基于规则而非模型判断），可以可靠地验证 LLM 的中间推理输出。
- 设计动机：如果用另一个 LLM 来判断推理正确性，会引入评估者本身的偏差和错误。基于规则的 ground truth 消除了这一问题，保证了评测的客观性和可重复性

损失函数 / 训练策略¶

GAMEBoT 是一个评测框架而非训练方法，不涉及损失函数和训练。评测指标包括两个维度：(1) 最终动作质量——通过胜率或累积分数衡量；(2) 中间推理准确率——每个子问题的正确率。综合得分为各子问题和最终动作的加权平均。

实验关键数据¶

主实验¶

17 个 LLM 在 8 个游戏上的综合排名（按 Decision Score 排序）：

排名	模型	综合得分	Othello	Pong	Connect4	Checkers	TicTacToe
1	GPT-4o	0.470	0.395	0.685	0.525	0.270	0.475
2	Claude-3.5-Sonnet	0.390	0.280	0.545	0.620	0.050	0.395
3	GPT-4	0.355	0.135	0.475	0.545	0.090	0.405
4	Llama-3.1-405B	0.305	0.215	0.640	0.520	0.000	0.325
5	Llama-3.1-70B	0.250	0.135	0.575	0.300	0.050	0.495
6	GPT-4o-mini	0.205	-0.175	0.430	0.335	-0.015	0.170
17	Jamba-1.5-mini	-0.100	0.065	0.070	-0.145	-0.250	-0.115

中间推理准确率（代表性模型）：

模型	棋盘理解	合法走法枚举	策略评估	总体中间推理
GPT-4o	0.71	0.58	0.39	0.52
Claude-3.5-Sonnet	0.65	0.52	0.35	0.47
GPT-4	0.62	0.48	0.32	0.44
Llama-3.1-405B	0.55	0.43	0.28	0.39

消融实验¶

CoT 提示的影响（GPT-4o，Othello）:

配置	决策得分	中间推理准确率	说明
完整 CoT	0.395	0.52	提供所有子问题的 CoT 引导
无 CoT	0.215	N/A	不提供任何推理引导，掉 0.18
部分 CoT（仅棋盘理解）	0.285	0.71*	只引导棋盘理解，其余自由推理
部分 CoT（仅策略评估）	0.310	0.39*	只引导策略评估

关键发现¶

即使 SOTA 模型推理准确率也很低：GPT-4o 在有详细 CoT 引导下的中间推理准确率仅为 0.52，说明 GAMEBoT 确实具有区分度且难度足够
棋盘理解 vs 策略推理的差距：所有模型在"理解当前状态"上表现远好于"做出战略决策"，说明感知能力和推理能力之间存在显著差距
Checkers 是最难的游戏：几乎所有模型在 Checkers 上得分最低（许多模型为负分），因为 Checkers 需要多步前瞻和复杂的位置评估
模型规模不总是决定因素：Llama-3.1-70B 在某些游戏上超过了 GPT-4o-mini，说明推理能力并不完全取决于参数量
CoT 提示带来一致提升：但提升幅度因游戏而异——规则越复杂、需要越多步推理的游戏从 CoT 中受益越大
最新的 GPT-5 在 Connect4 和 Checkers 上展现出压倒性优势（网站最新更新数据）

亮点与洞察¶

中间推理步骤的可验证性：这是 GAMEBoT 最大的创新点。通过将复杂推理分解为可验证的子问题，并用基于规则的算法生成 ground truth，实现了对推理过程而非仅仅推理结果的评测。这种思路可以迁移到任何可以形式化分解推理步骤的领域。
抗数据污染的天然优势：动态对局+LLM 对抗的设计使得每次评测的游戏状态几乎不可能重复，从根本上避免了数据泄露问题。这比简单地"隐藏测试集"更可靠。
8 个游戏覆盖多维推理能力：从简单的 TicTacToe 到复杂的德州扑克，涵盖空间推理、数学推理、风险管理、对手建模等多种能力维度，提供了推理能力的多维画像而非单一分数。

局限与展望¶

游戏环境毕竟是简化的世界，推理能力在游戏中的表现能否迁移到真实世界推理任务（如科学推论、法律推理）尚不确定
子问题分解和 CoT 提示的设计需要领域专家参与，扩展到新游戏需要人工投入
基于规则的 ground truth 在某些游戏（如德州扑克的最优策略）上可能不够精确——最优策略本身就是一个开放问题
评测成本较高——每次评测需要运行大量对局，token 消耗大
目前仅支持文本输入的游戏状态描述，未来可以扩展到需要视觉理解的游戏（如通过截图理解游戏状态）
可以考虑加入"学习能力"维度——评测模型在多轮对局后是否能通过 in-context learning 改善策略

评分¶

新颖性: ⭐⭐⭐⭐ 推理分解+ground truth 验证的评测思路新颖，8 游戏覆盖多维推理能力的设计全面
实验充分度: ⭐⭐⭐⭐⭐ 17 个模型 × 8 个游戏的大规模评测，CoT 消融分析深入，网站持续更新最新模型结果
写作质量: ⭐⭐⭐⭐ 论文结构清晰，游戏选择和推理分解的逻辑性强，项目页面做得精良
价值: ⭐⭐⭐⭐ 为 LLM 推理评测提供了一个重要的互补视角，项目持续维护更新增加了长期价值