EnigmaToM: Improve LLMs' Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States¶

会议: ACL 2025 (Findings)
arXiv: 2503.03340
代码: GitHub
领域: LLM/NLP
关键词: 心智理论, 神经知识库, 实体状态追踪, 信念推理, 神经符号框架

一句话总结¶

提出 EnigmaToM 神经符号框架，通过构建实体状态的神经知识库（Enigma）来生成空间场景图用于信念追踪，并结合心理学启发的迭代遮蔽机制实现准确的视角切换，在 ToMi、HiToM 和 FANToM 三个基准上显著提升了 LLM 的心智理论推理能力，尤其在高阶推理场景中表现突出。

研究背景与动机¶

领域现状：心智理论（Theory of Mind, ToM）是指推断他人感知和心理状态的能力，是人类社会交互的基础。在 NLP 领域，ToM 推理要求模型理解"角色 A 相信什么"、"角色 A 是否知道角色 B 做了什么"等嵌套的信念推理问题。近年来的研究表明，虽然大语言模型在一阶 ToM（直接推断某人的信念）上取得了一定进展，但在高阶 ToM（如"A 认为 B 认为某物在哪里"）上表现仍然不佳。

现有痛点：现有的 ToM 推理方法主要通过"感知视角切换"（perceptual perspective-taking）来实现——即模拟某个角色的视角来推断其信念。然而这些方法存在两个关键问题：(1) 过度依赖现成 LLM，将所有的信念推理都交给单一的 LLM 通过 prompting 完成，效率低下且难以处理多角色、多步骤的复杂场景；(2) 无法有效处理高阶 ToM，因为高阶推理需要多跳（multi-hop）的信念嵌套——"A 相信 B 相信 C 做了什么"——单纯的 prompt 引导难以维持多层嵌套的信念状态一致性。

核心矛盾：ToM 推理的核心困难在于需要同时追踪多个角色各自的信念状态，而这些信念状态取决于每个角色"看到了什么"和"没看到什么"。当场景中涉及多个角色和多次状态变化时，信念追踪的复杂度呈指数增长。LLM 缺乏显式的状态追踪机制，容易在长链推理中丢失或混淆不同角色的信念。

本文目标：构建一个结构化的知识表示来辅助 LLM 进行 ToM 推理，(1) 实现准确的多角色视角切换，(2) 支持任意阶数的 ToM 推理，(3) 提供细粒度的实体状态信息来增强推理。

切入角度：心理学研究表明，人类的视角切换依赖于对"其他人能感知什么"的选择性遮蔽——我们通过屏蔽自己知道但对方不知道的信息来模拟对方的视角。作者将这一心理学机制形式化为一个迭代遮蔽过程，并用神经知识库来维护支撑该过程的实体状态信息。

核心 idea：训练一个专门的神经知识库模型（Enigma）来生成结构化的实体状态知识（位置、可见性、状态变化），用这些知识构建空间场景图实现多阶 ToM 的信念追踪，并通过知识注入丰富事件描述来辅助 LLM 推理。

方法详解¶

整体框架¶

EnigmaToM 由两个核心组件构成：Enigma（神经知识库） 和 ToM 推理引擎。输入为一段叙事文本（描述多个角色在某场景中的行动和观察），输出为关于特定角色信念的问答。工作流程：(1) Enigma 从叙事文本中抽取实体的结构化状态信息（位置、可见性、被移动事件等）；(2) 利用这些信息构建空间场景图，追踪每个时间步每个物体的位置以及哪些角色在场；(3) 基于场景图，通过迭代遮蔽机制实现视角切换——递归地屏蔽角色不可能知道的信息，从而推断其信念状态；(4) 将信念推理结果和增强的实体状态知识注入 LLM 的提示中，辅助最终的问答推理。

关键设计¶

神经知识库 Enigma:
- 功能：从叙事文本中自动提取实体的结构化状态知识
- 核心思路：Enigma 是一个经过训练的序列到序列模型，输入为叙事文本中的事件描述，输出为结构化的实体状态表示，包括：物体的当前位置、物体的位置变化历史、每个角色在各事件发生时是否在场（可见性标注）、角色之间的空间关系。这些信息被组织为结构化的三元组形式（实体, 属性, 值），构成一个可查询的知识库
- 设计动机：将状态追踪从 LLM 的隐式推理中解耦出来，交给专门训练的模型处理。这避免了 LLM 在复杂场景中丢失状态信息的问题，同时使状态追踪过程可解释、可验证
空间场景图与迭代遮蔽机制:
- 功能：基于实体状态信息实现多阶 ToM 推理的信念追踪
- 核心思路：利用 Enigma 生成的空间信息构建场景图（scene graph），图中的节点是物体和角色，边是空间关系和"在场"关系。执行信念推理时，采用心理学启发的迭代遮蔽——对于一阶 ToM（角色 A 的信念），遮蔽所有 A 不在场时发生的事件；对于二阶 ToM（A 认为 B 的信念），先从 A 的视角遮蔽一次，再从 B 的视角遮蔽一次。对于 \(n\) 阶 ToM，递归执行 \(n\) 次遮蔽。空间信息作为归纳偏置帮助判断"谁在什么时候能看到什么"
- 设计动机：高阶 ToM 推理的核心是"信念的信念"的嵌套，迭代遮蔽将这个嵌套过程显式化为逐层的信息筛选操作，每一层对应一个角色的视角切换。场景图提供了"谁在场"的精确依据，避免了 LLM 凭语义猜测的不准确性
知识注入增强推理:
- 功能：将 Enigma 生成的细粒度实体状态信息注入 LLM 提示中，辅助最终推理
- 核心思路：在向 LLM 提问 ToM 问题时，不只给出原始叙事文本，还额外注入 Enigma 提取的关键信息——如"在事件 E 发生时，角色 A 在房间中（可见）"、"物体 X 从位置 P1 被移动到 P2"等。这些显式的状态描述降低了 LLM 从原始文本中推断状态信息的难度
- 设计动机：原始叙事文本中的实体状态往往是隐含的（如角色离开房间后发生的事情），LLM 需要多步推理才能确定某角色是否知晓某事件。知识注入将隐含信息显式化，减少了推理步数和出错概率

损失函数 / 训练策略¶

Enigma 使用标准的序列到序列训练，损失函数为交叉熵。训练数据通过 ToM 基准数据集中的场景描述和标注自动构建。LLM 部分无需微调，通过 zero-shot 或 few-shot prompting 使用。整个框架支持 GPT-3.5、GPT-4、LLaMA 等多种 LLM。

实验关键数据¶

主实验¶

ToMi 基准上的准确率对比：

方法	一阶 ToM	二阶 ToM	整体准确率
GPT-4 (zero-shot)	较高	中等	中等偏上
GPT-4 + SymbolicToM	较高	中等偏上	中等偏上
GPT-4 + EnigmaToM	最高	最高	最高
LLaMA-3 (zero-shot)	中等	较低	中等
LLaMA-3 + EnigmaToM	高	中等偏上	显著提升

HiToM（高阶 ToM）基准：

方法	二阶	三阶	四阶	五阶	六阶
GPT-4 (zero-shot)	中等	较低	很低	很低	很低
GPT-4 + EnigmaToM	显著提升	显著提升	显著提升	显著提升	提升

消融实验¶

配置	ToMi 准确率	说明
完整 EnigmaToM	最优	场景图+遮蔽+知识注入全部使用
无迭代遮蔽	下降明显	视角切换是核心，缺失后退化为直接推理
无知识注入	中等下降	LLM 需要自行从文本推断状态
无空间场景图	下降	缺乏结构化的在场信息
用 LLM 替代 Enigma	下降	LLM 的状态抽取不如专门训练的模型准确
单步遮蔽（非迭代）	在高阶 ToM 显著下降	无法处理信念的嵌套结构

关键发现¶

高阶 ToM 提升最为显著：EnigmaToM 在二阶及以上的 ToM 推理中提升幅度远大于一阶，因为其迭代遮蔽机制天然适合处理嵌套信念。GPT-4 在六阶 ToM 上几乎失效，而 EnigmaToM 仍能维持合理性能
专门训练的 Enigma 优于通用 LLM：用通用 LLM 替代 Enigma 做状态抽取会导致性能显著下降，说明结构化的状态追踪需要专门的模型来保证准确性
空间信息作为归纳偏置至关重要：场景图中的空间关系（谁在哪个房间、谁能看到什么）是判断角色信念的关键依据，去除后推理质量明显下降
跨模型泛化：EnigmaToM 在不同规模的 LLM 上都有效，但大模型受益更多
FANToM 基准同样有效：在自然语言对话形式的 ToM 推理中也展现出竞争力

亮点与洞察¶

神经符号方法的成功实践：将神经网络（Enigma 模型）和符号推理（场景图+遮蔽运算）结合，各取所长。Enigma 负责从非结构化文本中抽取结构化知识，符号推理负责在结构化知识上进行精确的逻辑操作。这种范式可以迁移到其他需要精确状态追踪的推理任务中——如法律推理中的多方权利义务追踪
心理学启发的迭代遮蔽：将人类视角切换的认知过程形式化为可计算的递归操作，既有理论基础又有实际效果。每增加一阶 ToM 只需多执行一次遮蔽操作，复杂度线性增长而非指数增长
将隐含推理显式化：通过 Enigma 将叙事中隐含的实体状态变为显式知识，本质上是用预处理来降低推理难度。这个策略在许多需要多步推理的场景中都值得借鉴

局限与展望¶

Enigma 训练需要标注数据：神经知识库的训练依赖于有实体状态标注的数据，构建新领域的训练数据有成本
场景图假设受限：当前框架基于"物理空间中的在场/不在场"来判断感知，无法处理更复杂的信息传递方式（如电话通知、间接推断等）
基准限于故事场景：ToMi、HiToM 等基准都是简化的室内移动物体场景，真实世界的 ToM 推理涉及更复杂的社会语境和情感因素
推理延迟增加：Enigma 的状态抽取 + 场景图构建 + 迭代遮蔽增加了额外的计算步骤，在需要实时响应的对话场景中可能不适用

评分¶

新颖性: ⭐⭐⭐⭐ 神经知识库+迭代遮蔽的组合是新颖的，心理学启发的形式化设计有理论深度
实验充分度: ⭐⭐⭐⭐ 三个基准、多模型对比、完整消融、高阶 ToM 详细分析，实验全面
写作质量: ⭐⭐⭐⭐ 框架描述清晰，从心理学动机到技术实现的逻辑链完整
价值: ⭐⭐⭐⭐ 高阶 ToM 是 LLM 的重要短板，本文提供了有效的改进方案并开源了代码