Evaluating LLMs in Open-Source Games¶

会议: NeurIPS 2025
arXiv: 2512.00371
代码: https://github.com/swadeshs/llm-osgt
领域: LLM Agent
关键词: 博弈论, 程序平衡, 开源游戏, 多智能体合作, 代码透明性

一句话总结¶

通过开源游戏（智能体提交程序而非原始行动）这一新范式，系统评估 LLM 在战略推理、互相学习和合作博弈中的能力，发现 LLM 可自动发现近似程序平衡。

三阶段评估架构：第 1 层 SPARC 基准评估代码理解能力 → 第 2 层开源博弈（二人对战）研究新兴战略机制 → 第 3 层进化动力学分析程序平衡的稳定性。

SPARC 基准:
做什么：评估 LLM 理解对手策略代码的能力
核心思路：239 个 IPD 策略（来自 Axelrod 库），给定对手代码，预测是否会在 10 轮内对纯合作者始终合作。三层难度：未掩蔽、掩蔽（去除语义信息）、混淆（随机替换所有标识符）
设计动机：代码透明是开源游戏的前提，需先验证 LLM 能否理解策略代码
开源博弈实验:
做什么：二人对战，agent 提交 Python 程序而非直接动作
核心思路：三种 agent 目标——PM（纯自利）、CPM（合作优先）、DPM（可欺骗）。10 个 meta-round，每轮交换代码后执行，根据结果修改策略
战略特征评估：用 GPT-4o 作 judge 评估 5 种特征（独立开发、利用、反制、模仿、伪装）
设计动机：研究 LLM 在已知对手策略时的战略行为
进化动力学分析:
做什么：分析不同策略类型的长期稳定性
核心思路：复制子动力学方程 \(\dot{x}_i = x_i[(Ax)_i - x^TAx]\)，均匀初始化 CPM/DPM/PM 群体，观察演化轨迹
设计动机：单次博弈只能看到局部，进化分析揭示系统级均衡

模型	未掩蔽 Zero-Shot	未掩蔽 CoT	掩蔽 CoT	混淆 Zero-Shot	混淆 CoT
Qwen2.5 (7B)	56.4%	75.1%	75.1%	43.6%	65.6%
Qwen2.5 (72B)	59.8%	83.8%	83.8%	51.9%	78.8%
DeepSeek-V3	81.7%	86.3%	87.6%	72.2%	81.7%
Kimi-K2	80.1%	86.7%	85.9%	77.2%	83.0%
DeepSeek-R1	82.6%	-	84.2%	83.4%	-
o4-mini	87.6%	-	88.0%	84.2%	-

游戏	长期稳定类型	PM 吸引力	说明
IPD	CPM + DPM 共存	否	Tit-for-Tat 式合作策略稳定，PM 被淘汰
Coin Game	纯 PM 统治	是	空间推理更复杂，防守无效，需主动攻占