跳转至

📚 AI Paper Notes

Can Large Language Models Master Complex Card Games?

Can Large Language Models Master Complex Card Games?¶

会议: NeurIPS 2025
arXiv: 2509.01328
代码: https://github.com/THUDM/LLM4CardGame
领域: LLM/NLP
关键词: LLM游戏能力, 卡牌游戏, 监督微调, 多任务学习, 通用能力保持

一句话总结¶

系统评估LLM在8种复杂卡牌游戏上的学习能力，发现通过高质量游戏数据的SFT，LLM可以接近强游戏AI的水平，并能同时掌握多个游戏，但通用能力会下降（可通过混入通用指令数据缓解）。

研究背景与动机¶

领域现状：AlphaGo/AlphaZero/MuZero等通过强化学习在围棋、象棋等完全信息游戏中达到超人水平。LLM在知识问答、数学、编程等任务上表现出色。自然引出问题：LLM能否在复杂游戏中也达到类似水平？
现有痛点：(a) 现有LLM游戏评估多用prompt-based方法，只评估现有知识的迁移，未评估学习能力；(b) fine-tuning评估涉及的游戏复杂度不够，不足以全面考察LLM学习能力上限；(c) 缺乏多游戏同时学习和通用能力保持的系统评估。
核心矛盾：LLM作为通用语言模型，能否通过学习游戏策略数据达到专用游戏AI的水平？多游戏之间会互相增强还是冲突？游戏能力与通用能力能否兼得？
本文要解决什么？ 三个研究问题：(1) LLM能否掌握复杂卡牌游戏？需要多少数据？(2) 能否同时掌握多个游戏？(3) 掌握游戏后通用能力是否下降？
切入角度：选择8种卡牌游戏（斗地主、掼蛋、日本麻将、UNO、Gin Rummy、3种德州扑克），复杂度跨度大（信息集从\(10^3\)到\(10^{67}\)），用强游戏AI生成高质量轨迹数据做SFT。
核心idea一句话：不让LLM自己探索（太贵），而是用强AI生成的高质量轨迹做监督微调，系统评估LLM的游戏学习能力。

方法详解¶

整体框架¶

Pipeline分三步：(1) 数据生成：用强游戏AI（DouZero、DanZero等）对战生成轨迹→过滤→转为指令微调格式；(2) LoRA微调：对Qwen2.5/Llama3.1/GLM4做SFT；(3) 评估：让微调后的LLM与对手AI对战计算胜率/奖励。

关键设计¶

游戏选择与复杂度分析:
8种游戏覆盖从简单（Leduc Hold'em，6张牌）到极复杂（掼蛋，信息集数\(10^{67}\)）
关键复杂度维度：信息集数量、平均信息集大小、每步合法动作数、每局平均决策步数
斗地主/掼蛋/麻将属于高复杂度游戏（长决策链、大动作空间），其余5种相对简单
高质量轨迹数据生成:
做什么：用已有的强游戏AI作为"教师"生成训练数据，避免LLM自己在环境中探索的巨大开销
教师模型：斗地主用DouZero，掼蛋用DanZero，麻将用天凤平台专家数据，简单游戏用规则模型或DQN
数据过滤：只保留获胜方的决策数据 + 只保留合法动作数>1的决策点（去除无选择的步骤）
数据量：斗地主/掼蛋/麻将各100万条，简单游戏各40万条
指令微调格式:
每个observation-action pair转为一条指令：包含游戏介绍、当前状态（手牌、公共牌、历史动作、合法动作）、输出格式说明
输出为JSON格式的动作选择
用LoRA（rank=8, alpha=16）微调，1个epoch，lr=1e-4
多游戏混合训练:
根据单游戏实验确定各游戏所需数据量，混合为310万条样本
复杂游戏分配更多数据（掼蛋95万，斗地主70万），简单游戏较少（Gin Rummy 5万）

训练策略¶

模型：Qwen2.5-7B-Instruct, Llama3.1-8B-Instruct, GLM4-9B-Chat（及0.5B~14B不同规模）
LoRA微调，8×H100 GPU
通用能力用MMLU-Pro、Math-500、HumanEval评估

实验关键数据¶

主实验：单游戏性能（Qwen2.5-7B）¶

游戏	基线LLM	SFT后LLM	教师AI	说明
斗地主	0.087	0.806 胜率	~0.85	接近DouZero水平
掼蛋	0.000	0.649 轮胜率	~0.71	接近DanZero
日本麻将	0.04	1.18 奖励	Mortal:1.55	达到较强水平
UNO	0.032	0.188	规则:0.188	达到教师水平

多游戏混合训练 vs API模型¶

模型	斗地主	掼蛋	麻将	Leduc	Limit Texas	No-limit Texas
GPT-4o	0.180	0.019	0.25	0.84	0.60	2.73
DeepSeek-R1	0.185	0.020	0.05	0.88	0.24	1.88
Qwen-7B-mix	0.852	0.634	1.08	1.24	2.66	4.86

微调后的7B模型在所有8个游戏上全面碾压GPT-4o、DeepSeek-R1等大模型。

消融：通用能力保持¶

配置	MMLU-Pro	Math-500	HumanEval	斗地主
原始模型	56.3	80.0	86.6	0.087
仅游戏数据	42.1	53.6	67.7	0.806
游戏+10%通用	53.2	69.0	79.9	0.785
游戏+50%通用	54.2	72.0	83.5	0.775

关键发现¶

LLM学习能力惊人：在高复杂度游戏（斗地主、掼蛋）上接近专用强AI，且单模型可扮演多个角色
多游戏共学习：规则相似的游戏（如3种德州扑克）互相增强；规则差异大的游戏（如斗地主vs麻将）存在冲突
模型规模：0.5B~7B呈正相关，但14B反而差于7B——因为数据不足以支撑大模型的学习（尤其农民角色数据质量问题）
通用能力下降可缓解：纯游戏微调导致MMLU-Pro下降14%，但混入50%通用指令数据可恢复到仅差2%，同时游戏能力仅略降
数据质量关键：农民角色表现远差于地主，根因是过滤规则导致"搭便车"农民的低质量数据混入

亮点与洞察¶

工程思路巧妙：不让LLM自己探索（RL太贵），而是站在"巨人"（DouZero等）的肩膀上做SFT，用最低成本验证LLM的游戏学习能力上限
多游戏共学习的实验设计：发现相似规则游戏互相促进、不同规则游戏冲突的规律，对多任务LLM训练有启发
数据质量 > 数据数量：农民角色的问题深刻揭示了团队游戏中"搭便车"数据的陷阱

局限性 / 可改进方向¶

仅用SFT，未探索RL——如果加上self-play或RLHF，性能可能进一步提升
对手模型较弱（规则模型、随机模型），评估了LLM对弱对手的胜率但未与最强AI对战
数据过滤策略不够精细——团队游戏中应区分关键贡献者，而非简单保留获胜方所有数据
14B退化问题说明LoRA rank可能需要随模型规模调整
只研究了卡牌游戏，未扩展到棋类等完全信息游戏

相关工作与启发¶

vs AlphaGo/AlphaZero: 它们通过自我博弈+RL从零学习，本文用已有AI数据做SFT。LLM的优势是单模型多游戏的通用性
vs Suspicion-Agent (Guo et al.): prompt-based方法依赖模型固有知识，性能远不如SFT方法（GPT-4o在斗地主仅0.18 vs SFT后0.85）
vs 专用游戏AI: LLM接近但未超越专用AI，说明SFT有天花板，可能需要RL突破

评分¶

新颖性: ⭐⭐⭐ 方法本身（SFT）不新颖，但系统性评估框架和实验发现有价值
实验充分度: ⭐⭐⭐⭐⭐ 8个游戏、多模型类型/大小、单游戏/多游戏/通用能力三维度评估非常全面
写作质量: ⭐⭐⭐⭐ 实验驱动，结论清晰，数据详实
价值: ⭐⭐⭐⭐ 为LLM作为通用agent的能力边界提供了扎实的benchmark数据