跳转至

EnigmaToM: Improve LLMs' Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States

会议: ACL 2025 (Findings)
arXiv: 2503.03340
代码: GitHub
领域: LLM/NLP
关键词: 心智理论, 神经知识库, 实体状态追踪, 信念推理, 神经符号框架

一句话总结

提出 EnigmaToM 神经符号框架,通过构建实体状态的神经知识库(Enigma)来生成空间场景图用于信念追踪,并结合心理学启发的迭代遮蔽机制实现准确的视角切换,在 ToMi、HiToM 和 FANToM 三个基准上显著提升了 LLM 的心智理论推理能力,尤其在高阶推理场景中表现突出。

研究背景与动机

领域现状:心智理论(Theory of Mind, ToM)是指推断他人感知和心理状态的能力,是人类社会交互的基础。在 NLP 领域,ToM 推理要求模型理解"角色 A 相信什么"、"角色 A 是否知道角色 B 做了什么"等嵌套的信念推理问题。近年来的研究表明,虽然大语言模型在一阶 ToM(直接推断某人的信念)上取得了一定进展,但在高阶 ToM(如"A 认为 B 认为某物在哪里")上表现仍然不佳。

现有痛点:现有的 ToM 推理方法主要通过"感知视角切换"(perceptual perspective-taking)来实现——即模拟某个角色的视角来推断其信念。然而这些方法存在两个关键问题:(1) 过度依赖现成 LLM,将所有的信念推理都交给单一的 LLM 通过 prompting 完成,效率低下且难以处理多角色、多步骤的复杂场景;(2) 无法有效处理高阶 ToM,因为高阶推理需要多跳(multi-hop)的信念嵌套——"A 相信 B 相信 C 做了什么"——单纯的 prompt 引导难以维持多层嵌套的信念状态一致性。

核心矛盾:ToM 推理的核心困难在于需要同时追踪多个角色各自的信念状态,而这些信念状态取决于每个角色"看到了什么"和"没看到什么"。当场景中涉及多个角色和多次状态变化时,信念追踪的复杂度呈指数增长。LLM 缺乏显式的状态追踪机制,容易在长链推理中丢失或混淆不同角色的信念。

本文目标:构建一个结构化的知识表示来辅助 LLM 进行 ToM 推理,(1) 实现准确的多角色视角切换,(2) 支持任意阶数的 ToM 推理,(3) 提供细粒度的实体状态信息来增强推理。

切入角度:心理学研究表明,人类的视角切换依赖于对"其他人能感知什么"的选择性遮蔽——我们通过屏蔽自己知道但对方不知道的信息来模拟对方的视角。作者将这一心理学机制形式化为一个迭代遮蔽过程,并用神经知识库来维护支撑该过程的实体状态信息。

核心 idea:训练一个专门的神经知识库模型(Enigma)来生成结构化的实体状态知识(位置、可见性、状态变化),用这些知识构建空间场景图实现多阶 ToM 的信念追踪,并通过知识注入丰富事件描述来辅助 LLM 推理。

方法详解

整体框架

EnigmaToM 由两个核心组件构成:Enigma(神经知识库)ToM 推理引擎。输入为一段叙事文本(描述多个角色在某场景中的行动和观察),输出为关于特定角色信念的问答。工作流程:(1) Enigma 从叙事文本中抽取实体的结构化状态信息(位置、可见性、被移动事件等);(2) 利用这些信息构建空间场景图,追踪每个时间步每个物体的位置以及哪些角色在场;(3) 基于场景图,通过迭代遮蔽机制实现视角切换——递归地屏蔽角色不可能知道的信息,从而推断其信念状态;(4) 将信念推理结果和增强的实体状态知识注入 LLM 的提示中,辅助最终的问答推理。

关键设计

  1. 神经知识库 Enigma:

    • 功能:从叙事文本中自动提取实体的结构化状态知识
    • 核心思路:Enigma 是一个经过训练的序列到序列模型,输入为叙事文本中的事件描述,输出为结构化的实体状态表示,包括:物体的当前位置、物体的位置变化历史、每个角色在各事件发生时是否在场(可见性标注)、角色之间的空间关系。这些信息被组织为结构化的三元组形式(实体, 属性, 值),构成一个可查询的知识库
    • 设计动机:将状态追踪从 LLM 的隐式推理中解耦出来,交给专门训练的模型处理。这避免了 LLM 在复杂场景中丢失状态信息的问题,同时使状态追踪过程可解释、可验证
  2. 空间场景图与迭代遮蔽机制:

    • 功能:基于实体状态信息实现多阶 ToM 推理的信念追踪
    • 核心思路:利用 Enigma 生成的空间信息构建场景图(scene graph),图中的节点是物体和角色,边是空间关系和"在场"关系。执行信念推理时,采用心理学启发的迭代遮蔽——对于一阶 ToM(角色 A 的信念),遮蔽所有 A 不在场时发生的事件;对于二阶 ToM(A 认为 B 的信念),先从 A 的视角遮蔽一次,再从 B 的视角遮蔽一次。对于 \(n\) 阶 ToM,递归执行 \(n\) 次遮蔽。空间信息作为归纳偏置帮助判断"谁在什么时候能看到什么"
    • 设计动机:高阶 ToM 推理的核心是"信念的信念"的嵌套,迭代遮蔽将这个嵌套过程显式化为逐层的信息筛选操作,每一层对应一个角色的视角切换。场景图提供了"谁在场"的精确依据,避免了 LLM 凭语义猜测的不准确性
  3. 知识注入增强推理:

    • 功能:将 Enigma 生成的细粒度实体状态信息注入 LLM 提示中,辅助最终推理
    • 核心思路:在向 LLM 提问 ToM 问题时,不只给出原始叙事文本,还额外注入 Enigma 提取的关键信息——如"在事件 E 发生时,角色 A 在房间中(可见)"、"物体 X 从位置 P1 被移动到 P2"等。这些显式的状态描述降低了 LLM 从原始文本中推断状态信息的难度
    • 设计动机:原始叙事文本中的实体状态往往是隐含的(如角色离开房间后发生的事情),LLM 需要多步推理才能确定某角色是否知晓某事件。知识注入将隐含信息显式化,减少了推理步数和出错概率

损失函数 / 训练策略

Enigma 使用标准的序列到序列训练,损失函数为交叉熵。训练数据通过 ToM 基准数据集中的场景描述和标注自动构建。LLM 部分无需微调,通过 zero-shot 或 few-shot prompting 使用。整个框架支持 GPT-3.5、GPT-4、LLaMA 等多种 LLM。

实验关键数据

主实验

ToMi 基准上的准确率对比:

方法 一阶 ToM 二阶 ToM 整体准确率
GPT-4 (zero-shot) 较高 中等 中等偏上
GPT-4 + SymbolicToM 较高 中等偏上 中等偏上
GPT-4 + EnigmaToM 最高 最高 最高
LLaMA-3 (zero-shot) 中等 较低 中等
LLaMA-3 + EnigmaToM 中等偏上 显著提升

HiToM(高阶 ToM)基准:

方法 二阶 三阶 四阶 五阶 六阶
GPT-4 (zero-shot) 中等 较低 很低 很低 很低
GPT-4 + EnigmaToM 显著提升 显著提升 显著提升 显著提升 提升

消融实验

配置 ToMi 准确率 说明
完整 EnigmaToM 最优 场景图+遮蔽+知识注入全部使用
无迭代遮蔽 下降明显 视角切换是核心,缺失后退化为直接推理
无知识注入 中等下降 LLM 需要自行从文本推断状态
无空间场景图 下降 缺乏结构化的在场信息
用 LLM 替代 Enigma 下降 LLM 的状态抽取不如专门训练的模型准确
单步遮蔽(非迭代) 在高阶 ToM 显著下降 无法处理信念的嵌套结构

关键发现

  • 高阶 ToM 提升最为显著:EnigmaToM 在二阶及以上的 ToM 推理中提升幅度远大于一阶,因为其迭代遮蔽机制天然适合处理嵌套信念。GPT-4 在六阶 ToM 上几乎失效,而 EnigmaToM 仍能维持合理性能
  • 专门训练的 Enigma 优于通用 LLM:用通用 LLM 替代 Enigma 做状态抽取会导致性能显著下降,说明结构化的状态追踪需要专门的模型来保证准确性
  • 空间信息作为归纳偏置至关重要:场景图中的空间关系(谁在哪个房间、谁能看到什么)是判断角色信念的关键依据,去除后推理质量明显下降
  • 跨模型泛化:EnigmaToM 在不同规模的 LLM 上都有效,但大模型受益更多
  • FANToM 基准同样有效:在自然语言对话形式的 ToM 推理中也展现出竞争力

亮点与洞察

  • 神经符号方法的成功实践:将神经网络(Enigma 模型)和符号推理(场景图+遮蔽运算)结合,各取所长。Enigma 负责从非结构化文本中抽取结构化知识,符号推理负责在结构化知识上进行精确的逻辑操作。这种范式可以迁移到其他需要精确状态追踪的推理任务中——如法律推理中的多方权利义务追踪
  • 心理学启发的迭代遮蔽:将人类视角切换的认知过程形式化为可计算的递归操作,既有理论基础又有实际效果。每增加一阶 ToM 只需多执行一次遮蔽操作,复杂度线性增长而非指数增长
  • 将隐含推理显式化:通过 Enigma 将叙事中隐含的实体状态变为显式知识,本质上是用预处理来降低推理难度。这个策略在许多需要多步推理的场景中都值得借鉴

局限与展望

  • Enigma 训练需要标注数据:神经知识库的训练依赖于有实体状态标注的数据,构建新领域的训练数据有成本
  • 场景图假设受限:当前框架基于"物理空间中的在场/不在场"来判断感知,无法处理更复杂的信息传递方式(如电话通知、间接推断等)
  • 基准限于故事场景:ToMi、HiToM 等基准都是简化的室内移动物体场景,真实世界的 ToM 推理涉及更复杂的社会语境和情感因素
  • 推理延迟增加:Enigma 的状态抽取 + 场景图构建 + 迭代遮蔽增加了额外的计算步骤,在需要实时响应的对话场景中可能不适用

相关工作与启发

  • vs SymbolicToM:SymbolicToM 也使用符号推理辅助 ToM,但其状态追踪完全依赖规则解析,无法处理自然语言中的模糊表述。EnigmaToM 用神经网络做状态抽取,鲁棒性更强
  • vs SimToM:SimToM 通过模拟 perspective-taking 来推理 ToM,但仅通过 prompt 引导 LLM,没有显式的状态追踪和信念图维护。EnigmaToM 的结构化知识库使信念追踪更精确可靠
  • vs BigToM:BigToM 关注 ToM 基准的构建和评估,EnigmaToM 则聚焦于推理方法本身的改进,两者互补

评分

  • 新颖性: ⭐⭐⭐⭐ 神经知识库+迭代遮蔽的组合是新颖的,心理学启发的形式化设计有理论深度
  • 实验充分度: ⭐⭐⭐⭐ 三个基准、多模型对比、完整消融、高阶 ToM 详细分析,实验全面
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,从心理学动机到技术实现的逻辑链完整
  • 价值: ⭐⭐⭐⭐ 高阶 ToM 是 LLM 的重要短板,本文提供了有效的改进方案并开源了代码

相关论文