Can Large Language Models Master Complex Card Games?¶
会议: NeurIPS 2025
arXiv: 2509.01328
代码: https://github.com/THUDM/LLM4CardGame
领域: LLM/NLP
关键词: LLM游戏能力, 卡牌游戏, 监督微调, 多任务学习, 通用能力保持
一句话总结¶
系统评估LLM在8种复杂卡牌游戏上的学习能力,发现通过高质量游戏数据的SFT,LLM可以接近强游戏AI的水平,并能同时掌握多个游戏,但通用能力会下降(可通过混入通用指令数据缓解)。
研究背景与动机¶
- 领域现状:AlphaGo/AlphaZero/MuZero等通过强化学习在围棋、象棋等完全信息游戏中达到超人水平。LLM在知识问答、数学、编程等任务上表现出色。自然引出问题:LLM能否在复杂游戏中也达到类似水平?
- 现有痛点:(a) 现有LLM游戏评估多用prompt-based方法,只评估现有知识的迁移,未评估学习能力;(b) fine-tuning评估涉及的游戏复杂度不够,不足以全面考察LLM学习能力上限;(c) 缺乏多游戏同时学习和通用能力保持的系统评估。
- 核心矛盾:LLM作为通用语言模型,能否通过学习游戏策略数据达到专用游戏AI的水平?多游戏之间会互相增强还是冲突?游戏能力与通用能力能否兼得?
- 本文要解决什么? 三个研究问题:(1) LLM能否掌握复杂卡牌游戏?需要多少数据?(2) 能否同时掌握多个游戏?(3) 掌握游戏后通用能力是否下降?
- 切入角度:选择8种卡牌游戏(斗地主、掼蛋、日本麻将、UNO、Gin Rummy、3种德州扑克),复杂度跨度大(信息集从\(10^3\)到\(10^{67}\)),用强游戏AI生成高质量轨迹数据做SFT。
- 核心idea一句话:不让LLM自己探索(太贵),而是用强AI生成的高质量轨迹做监督微调,系统评估LLM的游戏学习能力。
方法详解¶
整体框架¶
Pipeline分三步:(1) 数据生成:用强游戏AI(DouZero、DanZero等)对战生成轨迹→过滤→转为指令微调格式;(2) LoRA微调:对Qwen2.5/Llama3.1/GLM4做SFT;(3) 评估:让微调后的LLM与对手AI对战计算胜率/奖励。
关键设计¶
- 游戏选择与复杂度分析:
- 8种游戏覆盖从简单(Leduc Hold'em,6张牌)到极复杂(掼蛋,信息集数\(10^{67}\))
- 关键复杂度维度:信息集数量、平均信息集大小、每步合法动作数、每局平均决策步数
-
斗地主/掼蛋/麻将属于高复杂度游戏(长决策链、大动作空间),其余5种相对简单
-
高质量轨迹数据生成:
- 做什么:用已有的强游戏AI作为"教师"生成训练数据,避免LLM自己在环境中探索的巨大开销
- 教师模型:斗地主用DouZero,掼蛋用DanZero,麻将用天凤平台专家数据,简单游戏用规则模型或DQN
- 数据过滤:只保留获胜方的决策数据 + 只保留合法动作数>1的决策点(去除无选择的步骤)
-
数据量:斗地主/掼蛋/麻将各100万条,简单游戏各40万条
-
指令微调格式:
- 每个observation-action pair转为一条指令:包含游戏介绍、当前状态(手牌、公共牌、历史动作、合法动作)、输出格式说明
- 输出为JSON格式的动作选择
-
用LoRA(rank=8, alpha=16)微调,1个epoch,lr=1e-4
-
多游戏混合训练:
- 根据单游戏实验确定各游戏所需数据量,混合为310万条样本
- 复杂游戏分配更多数据(掼蛋95万,斗地主70万),简单游戏较少(Gin Rummy 5万)
训练策略¶
- 模型:Qwen2.5-7B-Instruct, Llama3.1-8B-Instruct, GLM4-9B-Chat(及0.5B~14B不同规模)
- LoRA微调,8×H100 GPU
- 通用能力用MMLU-Pro、Math-500、HumanEval评估
实验关键数据¶
主实验:单游戏性能(Qwen2.5-7B)¶
| 游戏 | 基线LLM | SFT后LLM | 教师AI | 说明 |
|---|---|---|---|---|
| 斗地主 | 0.087 | 0.806 胜率 | ~0.85 | 接近DouZero水平 |
| 掼蛋 | 0.000 | 0.649 轮胜率 | ~0.71 | 接近DanZero |
| 日本麻将 | 0.04 | 1.18 奖励 | Mortal:1.55 | 达到较强水平 |
| UNO | 0.032 | 0.188 | 规则:0.188 | 达到教师水平 |
多游戏混合训练 vs API模型¶
| 模型 | 斗地主 | 掼蛋 | 麻将 | Leduc | Limit Texas | No-limit Texas |
|---|---|---|---|---|---|---|
| GPT-4o | 0.180 | 0.019 | 0.25 | 0.84 | 0.60 | 2.73 |
| DeepSeek-R1 | 0.185 | 0.020 | 0.05 | 0.88 | 0.24 | 1.88 |
| Qwen-7B-mix | 0.852 | 0.634 | 1.08 | 1.24 | 2.66 | 4.86 |
微调后的7B模型在所有8个游戏上全面碾压GPT-4o、DeepSeek-R1等大模型。
消融:通用能力保持¶
| 配置 | MMLU-Pro | Math-500 | HumanEval | 斗地主 |
|---|---|---|---|---|
| 原始模型 | 56.3 | 80.0 | 86.6 | 0.087 |
| 仅游戏数据 | 42.1 | 53.6 | 67.7 | 0.806 |
| 游戏+10%通用 | 53.2 | 69.0 | 79.9 | 0.785 |
| 游戏+50%通用 | 54.2 | 72.0 | 83.5 | 0.775 |
关键发现¶
- LLM学习能力惊人:在高复杂度游戏(斗地主、掼蛋)上接近专用强AI,且单模型可扮演多个角色
- 多游戏共学习:规则相似的游戏(如3种德州扑克)互相增强;规则差异大的游戏(如斗地主vs麻将)存在冲突
- 模型规模:0.5B~7B呈正相关,但14B反而差于7B——因为数据不足以支撑大模型的学习(尤其农民角色数据质量问题)
- 通用能力下降可缓解:纯游戏微调导致MMLU-Pro下降14%,但混入50%通用指令数据可恢复到仅差2%,同时游戏能力仅略降
- 数据质量关键:农民角色表现远差于地主,根因是过滤规则导致"搭便车"农民的低质量数据混入
亮点与洞察¶
- 工程思路巧妙:不让LLM自己探索(RL太贵),而是站在"巨人"(DouZero等)的肩膀上做SFT,用最低成本验证LLM的游戏学习能力上限
- 多游戏共学习的实验设计:发现相似规则游戏互相促进、不同规则游戏冲突的规律,对多任务LLM训练有启发
- 数据质量 > 数据数量:农民角色的问题深刻揭示了团队游戏中"搭便车"数据的陷阱
局限性 / 可改进方向¶
- 仅用SFT,未探索RL——如果加上self-play或RLHF,性能可能进一步提升
- 对手模型较弱(规则模型、随机模型),评估了LLM对弱对手的胜率但未与最强AI对战
- 数据过滤策略不够精细——团队游戏中应区分关键贡献者,而非简单保留获胜方所有数据
- 14B退化问题说明LoRA rank可能需要随模型规模调整
- 只研究了卡牌游戏,未扩展到棋类等完全信息游戏
相关工作与启发¶
- vs AlphaGo/AlphaZero: 它们通过自我博弈+RL从零学习,本文用已有AI数据做SFT。LLM的优势是单模型多游戏的通用性
- vs Suspicion-Agent (Guo et al.): prompt-based方法依赖模型固有知识,性能远不如SFT方法(GPT-4o在斗地主仅0.18 vs SFT后0.85)
- vs 专用游戏AI: LLM接近但未超越专用AI,说明SFT有天花板,可能需要RL突破
评分¶
- 新颖性: ⭐⭐⭐ 方法本身(SFT)不新颖,但系统性评估框架和实验发现有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 8个游戏、多模型类型/大小、单游戏/多游戏/通用能力三维度评估非常全面
- 写作质量: ⭐⭐⭐⭐ 实验驱动,结论清晰,数据详实
- 价值: ⭐⭐⭐⭐ 为LLM作为通用agent的能力边界提供了扎实的benchmark数据