Bayesian Social Deduction with Graph-Informed Language Models¶

会议: ACL 2026
arXiv: 2506.17788
代码: 项目页
领域: LLM Agent / Social Reasoning
关键词: 社会推理, 概率图模型, 心智理论, 博弈智能体, 人机交互

一句话总结¶

提出 GRAIL（Graph Reasoning Agent Informed through Language），一个混合推理框架，将概率推理外化到因子图模型、用 LLM 处理语言理解和交互，在社交推理游戏 Avalon 中首次击败人类玩家（67% 胜率），且资源消耗远低于大规模推理模型。

领域现状: LLM 在通用推理上表现出色，但在多智能体隐藏信息场景下的社会推理——推断他人的信念、意图和欺骗——仍是开放挑战。社交推理游戏（如 Avalon）提供了评估此能力的结构化环境。

现有痛点: (1) 最大的推理模型（如 DeepSeek-R1 671B）能解决简单推理但需要大量 token 和计算；(2) 蒸馏到小模型后性能急剧下降；(3) 纯 LLM 方法难以进行跨长时间跨度的约束概率推理；(4) 大模型延迟高，无法与人类实时交互。

核心矛盾: 社交推理需要约束概率推理（如"只有2个坏人"的硬约束）和长程信念跟踪，但 LLM 本质上是 token 级推理，不擅长此类结构化推理。

本文目标: 构建能与人类实时对抗的社交推理智能体，在小模型上也能达到或超越大推理模型的性能。

切入角度: 混合架构——将信念推理外化到概率图模型（因子图+置信传播），LLM 专注于语言理解和对话生成。

核心 idea: 解耦结构化推理和语言能力：因子图跟踪角色信念（可解释、高效），LLM 提供语言先验和对话生成。

GRAIL 由三个组件组成：(1) 因子图——对玩家角色进行概率推理，用最大积置信传播进行 MAP 推断；(2) LLM——解析对话提取语言先验，生成对话消息；(3) 启发式动作策略——基于信念选择游戏动作（提议队伍、投票）。

因子图角色推理:
- 功能：在硬约束（恰好2个坏人）下维护和更新每个玩家的角色信念
- 核心思路：变量节点 \(\mathcal{R} = \{r_1,...,r_6\}\) 表示玩家角色（0=好/1=坏），游戏状态变量 \(\mathcal{S}\) 包含队伍组成、投票和任务结果；因子函数用神经网络近似 \(F = p(r_j|\{p_i,v_i,o_i\})\)，在 10 万局历史游戏上训练
- 设计动机：因子图天然支持硬约束推理和增量信念更新，比 LLM 的 token 推理更精确可靠
LLM 语言先验集成:
- 功能：将对话中的非结构化社交信号融入概率推理
- 核心思路：LLM 判断每个玩家的信念应"升高/降低/不变"（\(\delta_j^t\)），转换为先验 \(p(r_j^t) = 0.5 \pm \beta^t\)，\(\beta^t\) 随游戏进程递增（早期保守、后期置信）
- 设计动机：结构化数据不包含对话信息，但对话中包含关键的社交推理线索（矛盾、联盟暗示等）
因子函数的神经网络近似:
- 功能：解决高维条件概率表不可行的问题
- 核心思路：用简单前馈网络估计 \(p(r_j|\text{game state})\)，使用以自我为中心的输入变换消除位置偏差，共享网络消除因子间偏差
- 设计动机：传统概率表在高维设置下不可行，神经网络提供灵活的近似，仅需 2.5K-5K 局游戏即可训练

因子函数网络用二元分类损失训练。无需端到端 RL 训练，LLM 通过 in-context prompting 使用。GRAIL 使用 GPT-4.1 作为底层 LLM，但消融实验表明在 Llama-3.1-8B 上也能达到 75% 胜率。

条件	胜率	贡献评分	有帮助评分
GRAIL vs 人类	67%	高于推理基线和部分人类	高于推理基线和部分人类
GPT-o4-mini 推理 vs 人类	27%	较低	较低