Evaluating LLMs in Open-Source Games¶
会议: NeurIPS 2025
arXiv: 2512.00371
代码: https://github.com/swadeshs/llm-osgt
领域: LLM Agent
关键词: 博弈论, 程序平衡, 开源游戏, 多智能体合作, 代码透明性
一句话总结¶
通过开源游戏(智能体提交程序而非原始行动)这一新范式,系统评估 LLM 在战略推理、互相学习和合作博弈中的能力,发现 LLM 可自动发现近似程序平衡。
研究背景与动机¶
-
领域现状:LLM 多智能体研究多关注通讯、任务分解,很少触及战略推理和合作问题;传统博弈论主要针对人或传统 RL 智能体。
-
现有痛点:
- LLM 在复杂多智能体环境中的策略推理能力未充分理解
- 现有评估多采用自然语言或黑箱动作,难以解释和验证
-
合作博弈中 LLM 是否能自发达成合作平衡未知
-
核心矛盾:如何评估 LLM 在多智能体策略环境中既能保证自身利益又能达成合作的能力。
-
本文要解决什么? 利用代码透明性设计评估框架,研究 LLM 的战略推理和合作涌现。
-
切入角度:开源游戏——推翻"黑箱"限制,让智能体交换源代码,在已知对手策略的基础上推理。
-
核心idea一句话:通过 SPARC 基准(代码理解)+ 开源博弈(动态战略)+ 进化分析(长期稳定性)的三层递进研究 LLM 的策略推理。
方法详解¶
整体框架¶
三阶段评估架构:第 1 层 SPARC 基准评估代码理解能力 → 第 2 层开源博弈(二人对战)研究新兴战略机制 → 第 3 层进化动力学分析程序平衡的稳定性。
关键设计¶
- SPARC 基准:
- 做什么:评估 LLM 理解对手策略代码的能力
- 核心思路:239 个 IPD 策略(来自 Axelrod 库),给定对手代码,预测是否会在 10 轮内对纯合作者始终合作。三层难度:未掩蔽、掩蔽(去除语义信息)、混淆(随机替换所有标识符)
-
设计动机:代码透明是开源游戏的前提,需先验证 LLM 能否理解策略代码
-
开源博弈实验:
- 做什么:二人对战,agent 提交 Python 程序而非直接动作
- 核心思路:三种 agent 目标——PM(纯自利)、CPM(合作优先)、DPM(可欺骗)。10 个 meta-round,每轮交换代码后执行,根据结果修改策略
- 战略特征评估:用 GPT-4o 作 judge 评估 5 种特征(独立开发、利用、反制、模仿、伪装)
-
设计动机:研究 LLM 在已知对手策略时的战略行为
-
进化动力学分析:
- 做什么:分析不同策略类型的长期稳定性
- 核心思路:复制子动力学方程 \(\dot{x}_i = x_i[(Ax)_i - x^TAx]\),均匀初始化 CPM/DPM/PM 群体,观察演化轨迹
- 设计动机:单次博弈只能看到局部,进化分析揭示系统级均衡
实验关键数据¶
主实验:SPARC 基准¶
| 模型 | 未掩蔽 Zero-Shot | 未掩蔽 CoT | 掩蔽 CoT | 混淆 Zero-Shot | 混淆 CoT |
|---|---|---|---|---|---|
| Qwen2.5 (7B) | 56.4% | 75.1% | 75.1% | 43.6% | 65.6% |
| Qwen2.5 (72B) | 59.8% | 83.8% | 83.8% | 51.9% | 78.8% |
| DeepSeek-V3 | 81.7% | 86.3% | 87.6% | 72.2% | 81.7% |
| Kimi-K2 | 80.1% | 86.7% | 85.9% | 77.2% | 83.0% |
| DeepSeek-R1 | 82.6% | - | 84.2% | 83.4% | - |
| o4-mini | 87.6% | - | 88.0% | 84.2% | - |
进化动力学分析¶
| 游戏 | 长期稳定类型 | PM 吸引力 | 说明 |
|---|---|---|---|
| IPD | CPM + DPM 共存 | 否 | Tit-for-Tat 式合作策略稳定,PM 被淘汰 |
| Coin Game | 纯 PM 统治 | 是 | 空间推理更复杂,防守无效,需主动攻占 |
关键发现¶
- CoT 提示显著改进非推理模型(平均 +20%),但对推理模型影响不大
- 混淆仅轻微降低性能(72-84%),说明 LLM 主要依赖算法结构而非语义信息
- DPM 虽有欺骗意图,但在代码透明环境中欺骗效果有限
- 同一套 agent 在不同游戏中的演化轨迹完全相反——环境特性决定策略可行性
亮点与洞察¶
- 代码透明性的战略优势:LLM 可理解和推理对手代码逻辑,即使混淆后仍保持 72-84% 准确率,表明深层算法理解能力
- 目标指令的有效性:PM/CPM/DPM 不同提示成功导致迥异战略模式,LLM 的行为目标可通过提示工程显著塑造
- 合作的条件稳定性:IPD 中 CPM 可稳定存在,表明结构性重复博弈中合作可自发维持——对多智能体安全很有启示
- 三层递进设计:从代码理解 → 动态博弈 → 进化稳定性,逐层深入,实验设计优雅
局限性 / 可改进方向¶
- 仅研究二人博弈,多人联盟等更复杂场景未涉及
- 完全代码透明假设,实际中可能有部分隐藏
- IPD 仅 10 轮,Coin Game 网格很小
- 未集成形式化验证,无法保证生成代码满足安全属性
相关工作与启发¶
- vs 传统博弈论 LLM 研究:多项工作研究 LLM 在支付博弈中的表现,本文首次系统研究代码级战略推理
- vs Cooperative AI:Hammond/Dafoe 的框架主要理论性,本文提供实证评估工具
- 开源游戏理论:Rubinstein 的理论工作首次在 LLM 上实证验证
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 开源游戏的 LLM 实证研究全新视角
- 实验充分度: ⭐⭐⭐⭐⭐ SPARC → dyadic → evolutionary 三层递进
- 写作质量: ⭐⭐⭐⭐ 概念清晰,但某些博弈论细节可更易懂
- 价值: ⭐⭐⭐⭐⭐ 对多智能体安全、合作机制、策略推理有深刻洞察