No-Regret Strategy Solving in Imperfect-Information Games via Pre-Trained Embedding¶

会议: AAAI 2026
arXiv: 2511.12083
代码: https://github.com/PhilEnchan/EmbeddingCFR
领域: LLM/NLP
关键词: 博弈论, CFR, 信息集抽象, 嵌入空间, 扑克AI

一句话总结¶

提出 Embedding CFR 算法，将不完美信息博弈中的信息集映射到连续低维嵌入空间（而非离散聚类），在相同空间开销下实现更快的可利用性收敛和更高质量的策略求解。

研究背景与动机¶

在无限注德州扑克等大规模不完美信息博弈中，信息集数量巨大（\(\approx 10^{13}\)），直接用 CFR（反事实遗憾最小化）求解 Nash 均衡在空间上完全不可行。主流方法采用"抽象-求解-翻译"范式：先将相似信息集聚类到离散等价类中，在抽象博弈上求解，再映射回原博弈。

现有聚类方法的核心问题：硬分类带来二元性困境。例如两手牌 9♠A♠ 和 T♠A♠ 在翻牌后虽然都是对子，但后者可组成顺子同花而前者只能组成同花。将它们放入同一聚类会忽略关键差异，分开则浪费了共享策略的潜力。这种离散分类不可逆地丢失了信息集之间的细微区别。

切入角度：受 NLP 中词嵌入的启发——词嵌入用连续向量表示词的语义关系，类似地，可以将每个信息集映射到低维连续空间中的概率分布向量，既保留相似信息集间的策略相关性，又保持细微差异。

方法详解¶

整体框架¶

Embedding CFR 分两步：（1）预训练一个嵌入网络（HandEbdNet）将每手牌映射为 m 维概率分布向量（嵌入坐标）；（2）在嵌入空间中运行类似 CFR 的遗憾累积和策略更新，最终通过嵌入矩阵映射回原空间。

关键设计¶

扩展信息集抽象（Extended Information Set Abstraction）
引入"顾问（advisor）"概念：每个 info-block 关联 m 个顾问，每个顾问维护一个统一策略
信息集 \(I_q\) 的策略由所有顾问策略的加权聚合给出：\(\sigma(I_q, a) = \sum_p \phi_{p,q} \cdot \sigma(e_p, a)\)
权重 \(\phi_{p,q}\) 就是嵌入坐标，形成嵌入矩阵 \(\Phi\)
空间复杂度从 \(O(n \cdot |A|)\) 降到 \(O(m \cdot |A|)\)（\(m \ll n\)）
与传统抽象的统一关系：当每个信息集只信任一个顾问（\(\phi_{p,q} \in \{0,1\}\)）时退化为传统离散聚类
嵌入空间中的遗憾驱动机制
原空间的即时反事实遗憾通过 \(\Phi\) 投影到嵌入空间：\(r^T(\mathbf{E}, a) = \Phi \cdot r^T(\mathbf{J}, a)\)
在嵌入空间中用 regret matching 更新顾问策略
通过 \(\Phi^\top\) 映射回原空间的策略：\(\sigma_i^T(\mathbf{J}, a) = \Phi^\top \sigma_i^T(\mathbf{E}, a)\)
采样机制：每次迭代只激活一个子集的信息集，保持实际空间复杂度为 \(O(m)\)
HandEbdNet 嵌入网络
输入：手牌张量（编码花色、点数、所属轮次）
输出：手牌强度张量（各轮次的胜率分布）
中间层：手牌特征编码器 → m 维向量 → softmax → 概率分布作为嵌入坐标
核心洞察：牌力相似的手牌自然获得相近的嵌入坐标，从而在策略更新中相互影响
训练方式：用手牌强度（胜率分布）作为监督信号预训练，训练完成后固定参数，在策略求解阶段作为查询器使用

损失函数 / 训练策略¶

HandEbdNet 用手牌强度（胜率分布）作为监督信号训练。策略求解阶段无额外损失函数，靠遗憾最小化机制驱动收敛。理论分析证明单个顾问独立作用时，其嵌入累积遗憾满足递减性质。

实验关键数据¶

主实验（Numeral211 Hold'em）¶

方法	1024轮迭代后可利用性 (mb/g)	特点
EHS	~较高	经典期望手牌强度聚类
PaEmd (Libratus使用)	~较高	势感知聚类，SOTA
KrwEmd	~较高	基于历史轨迹的聚类
Embedding CFR	显著最低	连续嵌入空间策略求解

关键发现¶

在相同空间开销下，Embedding CFR 的可利用性收敛速度显著优于所有聚类方法（EHS、PaEmd、KrwEmd 性能相当但明显逊于 Embedding CFR）
三种聚类方法虽然策略不同，但在抽象粒度相同时表现相近——说明瓶颈在于离散聚类范式本身，而非具体聚类算法
嵌入坐标的概率分布表示使得相似手牌的策略自然相近，无需硬边界
在 1024 轮迭代后，Embedding CFR 的可利用性约为聚类方法的 60-70%，差距随迭代数增加持续扩大
采样+查询机制在 m=50 维嵌入下，每轮迭代的实际空间开销仅为 \(O(50 \cdot |A|)\)，与聚类方法的 50 个桶等价但策略质量显著更高

亮点与洞察¶

NLP 词嵌入思想迁移到博弈论：词嵌入解决了词的离散表示问题，Embedding CFR 解决了信息集的离散聚类问题，这个类比非常优雅
采样+查询机制保持低空间复杂度：不需要存储完整嵌入矩阵，而是通过神经网络动态生成嵌入坐标，巧妙解决了大规模博弈的存储瓶颈
Info-block 按非机会动作分区：利用扑克的完美回忆性质，使得共享相同非机会动作序列的 info-block 可以复用同一嵌入矩阵

局限性 / 可改进方向¶

收敛性分析仅证明了单个顾问独立作用时的遗憾递减，多顾问相互耦合时的收敛保证仍是开放问题
实验仅在 Numeral211 Hold'em（简化变体）上验证，未扩展到完整的无限注德州扑克
嵌入维度 m 的选择对性能的影响未做系统消融
HandEbdNet 依赖领域知识（手牌强度）作为监督信号，能否无监督学习嵌入？
目前仅在两人零和博弈中验证，多人非零和博弈中的适用性未知
嵌入坐标的稀疏性是否可以利用？从信息论角度分析嵌入的最优维度是有价值的后续工作

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将嵌入思想引入博弈论信息集抽象是全新的范式突破
实验充分度: ⭐⭐⭐ 仅在简化扑克上验证，未扩展到完整规模博弈
写作质量: ⭐⭐⭐⭐ 数学推导严谨，图示清晰直观
价值: ⭐⭐⭐⭐ 为大规模不完美信息博弈的求解开辟了新方向

补充说明¶

该工作的方法论和实验设计对相关领域有参考价值
后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
与近期相关工作的结合（如与 RL/MCTS/多模态方法的交叉）有潜在研究价值