跳转至

Evaluating LLMs in Open-Source Games

会议: NeurIPS 2025
arXiv: 2512.00371
代码: https://github.com/swadeshs/llm-osgt
领域: LLM Agent
关键词: 博弈论, 程序平衡, 开源游戏, 多智能体合作, 代码透明性

一句话总结

通过开源游戏(智能体提交程序而非原始行动)这一新范式,系统评估 LLM 在战略推理、互相学习和合作博弈中的能力,发现 LLM 可自动发现近似程序平衡。

研究背景与动机

  1. 领域现状:LLM 多智能体研究多关注通讯、任务分解,很少触及战略推理和合作问题;传统博弈论主要针对人或传统 RL 智能体。

  2. 现有痛点

  3. LLM 在复杂多智能体环境中的策略推理能力未充分理解
  4. 现有评估多采用自然语言或黑箱动作,难以解释和验证
  5. 合作博弈中 LLM 是否能自发达成合作平衡未知

  6. 核心矛盾:如何评估 LLM 在多智能体策略环境中既能保证自身利益又能达成合作的能力。

  7. 本文要解决什么? 利用代码透明性设计评估框架,研究 LLM 的战略推理和合作涌现。

  8. 切入角度:开源游戏——推翻"黑箱"限制,让智能体交换源代码,在已知对手策略的基础上推理。

  9. 核心idea一句话:通过 SPARC 基准(代码理解)+ 开源博弈(动态战略)+ 进化分析(长期稳定性)的三层递进研究 LLM 的策略推理。

方法详解

整体框架

三阶段评估架构:第 1 层 SPARC 基准评估代码理解能力 → 第 2 层开源博弈(二人对战)研究新兴战略机制 → 第 3 层进化动力学分析程序平衡的稳定性。

关键设计

  1. SPARC 基准:
  2. 做什么:评估 LLM 理解对手策略代码的能力
  3. 核心思路:239 个 IPD 策略(来自 Axelrod 库),给定对手代码,预测是否会在 10 轮内对纯合作者始终合作。三层难度:未掩蔽、掩蔽(去除语义信息)、混淆(随机替换所有标识符)
  4. 设计动机:代码透明是开源游戏的前提,需先验证 LLM 能否理解策略代码

  5. 开源博弈实验:

  6. 做什么:二人对战,agent 提交 Python 程序而非直接动作
  7. 核心思路:三种 agent 目标——PM(纯自利)、CPM(合作优先)、DPM(可欺骗)。10 个 meta-round,每轮交换代码后执行,根据结果修改策略
  8. 战略特征评估:用 GPT-4o 作 judge 评估 5 种特征(独立开发、利用、反制、模仿、伪装)
  9. 设计动机:研究 LLM 在已知对手策略时的战略行为

  10. 进化动力学分析:

  11. 做什么:分析不同策略类型的长期稳定性
  12. 核心思路:复制子动力学方程 \(\dot{x}_i = x_i[(Ax)_i - x^TAx]\),均匀初始化 CPM/DPM/PM 群体,观察演化轨迹
  13. 设计动机:单次博弈只能看到局部,进化分析揭示系统级均衡

实验关键数据

主实验:SPARC 基准

模型 未掩蔽 Zero-Shot 未掩蔽 CoT 掩蔽 CoT 混淆 Zero-Shot 混淆 CoT
Qwen2.5 (7B) 56.4% 75.1% 75.1% 43.6% 65.6%
Qwen2.5 (72B) 59.8% 83.8% 83.8% 51.9% 78.8%
DeepSeek-V3 81.7% 86.3% 87.6% 72.2% 81.7%
Kimi-K2 80.1% 86.7% 85.9% 77.2% 83.0%
DeepSeek-R1 82.6% - 84.2% 83.4% -
o4-mini 87.6% - 88.0% 84.2% -

进化动力学分析

游戏 长期稳定类型 PM 吸引力 说明
IPD CPM + DPM 共存 Tit-for-Tat 式合作策略稳定,PM 被淘汰
Coin Game 纯 PM 统治 空间推理更复杂,防守无效,需主动攻占

关键发现

  • CoT 提示显著改进非推理模型(平均 +20%),但对推理模型影响不大
  • 混淆仅轻微降低性能(72-84%),说明 LLM 主要依赖算法结构而非语义信息
  • DPM 虽有欺骗意图,但在代码透明环境中欺骗效果有限
  • 同一套 agent 在不同游戏中的演化轨迹完全相反——环境特性决定策略可行性

亮点与洞察

  • 代码透明性的战略优势:LLM 可理解和推理对手代码逻辑,即使混淆后仍保持 72-84% 准确率,表明深层算法理解能力
  • 目标指令的有效性:PM/CPM/DPM 不同提示成功导致迥异战略模式,LLM 的行为目标可通过提示工程显著塑造
  • 合作的条件稳定性:IPD 中 CPM 可稳定存在,表明结构性重复博弈中合作可自发维持——对多智能体安全很有启示
  • 三层递进设计:从代码理解 → 动态博弈 → 进化稳定性,逐层深入,实验设计优雅

局限性 / 可改进方向

  • 仅研究二人博弈,多人联盟等更复杂场景未涉及
  • 完全代码透明假设,实际中可能有部分隐藏
  • IPD 仅 10 轮,Coin Game 网格很小
  • 未集成形式化验证,无法保证生成代码满足安全属性

相关工作与启发

  • vs 传统博弈论 LLM 研究:多项工作研究 LLM 在支付博弈中的表现,本文首次系统研究代码级战略推理
  • vs Cooperative AI:Hammond/Dafoe 的框架主要理论性,本文提供实证评估工具
  • 开源游戏理论:Rubinstein 的理论工作首次在 LLM 上实证验证

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 开源游戏的 LLM 实证研究全新视角
  • 实验充分度: ⭐⭐⭐⭐⭐ SPARC → dyadic → evolutionary 三层递进
  • 写作质量: ⭐⭐⭐⭐ 概念清晰,但某些博弈论细节可更易懂
  • 价值: ⭐⭐⭐⭐⭐ 对多智能体安全、合作机制、策略推理有深刻洞察