跳转至

Can Large Language Models Master Complex Card Games?

会议: NeurIPS 2025
arXiv: 2509.01328
代码: https://github.com/THUDM/LLM4CardGame
领域: LLM/NLP
关键词: LLM游戏能力, 卡牌游戏, 监督微调, 多任务学习, 通用能力保持

一句话总结

系统评估LLM在8种复杂卡牌游戏上的学习能力,发现通过高质量游戏数据的SFT,LLM可以接近强游戏AI的水平,并能同时掌握多个游戏,但通用能力会下降(可通过混入通用指令数据缓解)。

研究背景与动机

  1. 领域现状:AlphaGo/AlphaZero/MuZero等通过强化学习在围棋、象棋等完全信息游戏中达到超人水平。LLM在知识问答、数学、编程等任务上表现出色。自然引出问题:LLM能否在复杂游戏中也达到类似水平?
  2. 现有痛点:(a) 现有LLM游戏评估多用prompt-based方法,只评估现有知识的迁移,未评估学习能力;(b) fine-tuning评估涉及的游戏复杂度不够,不足以全面考察LLM学习能力上限;(c) 缺乏多游戏同时学习和通用能力保持的系统评估。
  3. 核心矛盾:LLM作为通用语言模型,能否通过学习游戏策略数据达到专用游戏AI的水平?多游戏之间会互相增强还是冲突?游戏能力与通用能力能否兼得?
  4. 本文要解决什么? 三个研究问题:(1) LLM能否掌握复杂卡牌游戏?需要多少数据?(2) 能否同时掌握多个游戏?(3) 掌握游戏后通用能力是否下降?
  5. 切入角度:选择8种卡牌游戏(斗地主、掼蛋、日本麻将、UNO、Gin Rummy、3种德州扑克),复杂度跨度大(信息集从\(10^3\)\(10^{67}\)),用强游戏AI生成高质量轨迹数据做SFT。
  6. 核心idea一句话:不让LLM自己探索(太贵),而是用强AI生成的高质量轨迹做监督微调,系统评估LLM的游戏学习能力。

方法详解

整体框架

Pipeline分三步:(1) 数据生成:用强游戏AI(DouZero、DanZero等)对战生成轨迹→过滤→转为指令微调格式;(2) LoRA微调:对Qwen2.5/Llama3.1/GLM4做SFT;(3) 评估:让微调后的LLM与对手AI对战计算胜率/奖励。

关键设计

  1. 游戏选择与复杂度分析:
  2. 8种游戏覆盖从简单(Leduc Hold'em,6张牌)到极复杂(掼蛋,信息集数\(10^{67}\)
  3. 关键复杂度维度:信息集数量、平均信息集大小、每步合法动作数、每局平均决策步数
  4. 斗地主/掼蛋/麻将属于高复杂度游戏(长决策链、大动作空间),其余5种相对简单

  5. 高质量轨迹数据生成:

  6. 做什么:用已有的强游戏AI作为"教师"生成训练数据,避免LLM自己在环境中探索的巨大开销
  7. 教师模型:斗地主用DouZero,掼蛋用DanZero,麻将用天凤平台专家数据,简单游戏用规则模型或DQN
  8. 数据过滤:只保留获胜方的决策数据 + 只保留合法动作数>1的决策点(去除无选择的步骤)
  9. 数据量:斗地主/掼蛋/麻将各100万条,简单游戏各40万条

  10. 指令微调格式:

  11. 每个observation-action pair转为一条指令:包含游戏介绍、当前状态(手牌、公共牌、历史动作、合法动作)、输出格式说明
  12. 输出为JSON格式的动作选择
  13. 用LoRA(rank=8, alpha=16)微调,1个epoch,lr=1e-4

  14. 多游戏混合训练:

  15. 根据单游戏实验确定各游戏所需数据量,混合为310万条样本
  16. 复杂游戏分配更多数据(掼蛋95万,斗地主70万),简单游戏较少(Gin Rummy 5万)

训练策略

  • 模型:Qwen2.5-7B-Instruct, Llama3.1-8B-Instruct, GLM4-9B-Chat(及0.5B~14B不同规模)
  • LoRA微调,8×H100 GPU
  • 通用能力用MMLU-Pro、Math-500、HumanEval评估

实验关键数据

主实验:单游戏性能(Qwen2.5-7B)

游戏 基线LLM SFT后LLM 教师AI 说明
斗地主 0.087 0.806 胜率 ~0.85 接近DouZero水平
掼蛋 0.000 0.649 轮胜率 ~0.71 接近DanZero
日本麻将 0.04 1.18 奖励 Mortal:1.55 达到较强水平
UNO 0.032 0.188 规则:0.188 达到教师水平

多游戏混合训练 vs API模型

模型 斗地主 掼蛋 麻将 Leduc Limit Texas No-limit Texas
GPT-4o 0.180 0.019 0.25 0.84 0.60 2.73
DeepSeek-R1 0.185 0.020 0.05 0.88 0.24 1.88
Qwen-7B-mix 0.852 0.634 1.08 1.24 2.66 4.86

微调后的7B模型在所有8个游戏上全面碾压GPT-4o、DeepSeek-R1等大模型。

消融:通用能力保持

配置 MMLU-Pro Math-500 HumanEval 斗地主
原始模型 56.3 80.0 86.6 0.087
仅游戏数据 42.1 53.6 67.7 0.806
游戏+10%通用 53.2 69.0 79.9 0.785
游戏+50%通用 54.2 72.0 83.5 0.775

关键发现

  • LLM学习能力惊人:在高复杂度游戏(斗地主、掼蛋)上接近专用强AI,且单模型可扮演多个角色
  • 多游戏共学习:规则相似的游戏(如3种德州扑克)互相增强;规则差异大的游戏(如斗地主vs麻将)存在冲突
  • 模型规模:0.5B~7B呈正相关,但14B反而差于7B——因为数据不足以支撑大模型的学习(尤其农民角色数据质量问题)
  • 通用能力下降可缓解:纯游戏微调导致MMLU-Pro下降14%,但混入50%通用指令数据可恢复到仅差2%,同时游戏能力仅略降
  • 数据质量关键:农民角色表现远差于地主,根因是过滤规则导致"搭便车"农民的低质量数据混入

亮点与洞察

  • 工程思路巧妙:不让LLM自己探索(RL太贵),而是站在"巨人"(DouZero等)的肩膀上做SFT,用最低成本验证LLM的游戏学习能力上限
  • 多游戏共学习的实验设计:发现相似规则游戏互相促进、不同规则游戏冲突的规律,对多任务LLM训练有启发
  • 数据质量 > 数据数量:农民角色的问题深刻揭示了团队游戏中"搭便车"数据的陷阱

局限性 / 可改进方向

  • 仅用SFT,未探索RL——如果加上self-play或RLHF,性能可能进一步提升
  • 对手模型较弱(规则模型、随机模型),评估了LLM对弱对手的胜率但未与最强AI对战
  • 数据过滤策略不够精细——团队游戏中应区分关键贡献者,而非简单保留获胜方所有数据
  • 14B退化问题说明LoRA rank可能需要随模型规模调整
  • 只研究了卡牌游戏,未扩展到棋类等完全信息游戏

相关工作与启发

  • vs AlphaGo/AlphaZero: 它们通过自我博弈+RL从零学习,本文用已有AI数据做SFT。LLM的优势是单模型多游戏的通用性
  • vs Suspicion-Agent (Guo et al.): prompt-based方法依赖模型固有知识,性能远不如SFT方法(GPT-4o在斗地主仅0.18 vs SFT后0.85)
  • vs 专用游戏AI: LLM接近但未超越专用AI,说明SFT有天花板,可能需要RL突破

评分

  • 新颖性: ⭐⭐⭐ 方法本身(SFT)不新颖,但系统性评估框架和实验发现有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个游戏、多模型类型/大小、单游戏/多游戏/通用能力三维度评估非常全面
  • 写作质量: ⭐⭐⭐⭐ 实验驱动,结论清晰,数据详实
  • 价值: ⭐⭐⭐⭐ 为LLM作为通用agent的能力边界提供了扎实的benchmark数据