Theory of Mind in Large Language Models: Assessment and Enhancement¶

会议: ACL 2025
arXiv: 2505.00026
代码: 无
领域: LLM / NLP
关键词: Theory of Mind, ToM, benchmark survey, belief reasoning, LLM cognitive abilities

一句话总结¶

系统综述了 LLM 的心智理论（ToM）能力的评估基准（10+ story-based benchmarks）和增强策略（prompt-only 和 fine-tuning 两类方法），指出当前 LLM 在 ToM 推理上仍有显著不足，并提出未来方向。

研究背景与动机¶

领域现状：心智理论（Theory of Mind）是人类社会智能的基石，指理解他人信念、意图、情感等心理状态的能力。随着 LLM 日益融入日常生活，评估其 ToM 能力至关重要。
现有痛点：关于 LLM 是否真正具备 ToM 存在争议——部分研究认为 LLM 展现了 ToM 迹象（Kosinski 2024），但更多研究表明这些能力是表面的、不稳定的（Shapira et al. 2024; Ullman 2023）。
核心矛盾：2023-2024 年涌现了大量 ToM 评测基准和增强方法，但缺乏统一的综述将其系统梳理。之前的综述（Ma et al. 2023b）仅覆盖到 2023 年的基准，且未涵盖增强策略。
本文要解决什么：(1) 系统梳理近两年的 story-based ToM 基准及多模态基准；(2) 分类总结提升 LLM ToM 能力的策略；(3) 指出未来发展方向。
切入角度：基于 ATOMS 框架（7 种心理状态：beliefs, intentions, desires, emotions, knowledge, percepts, non-literal communication）对基准和方法进行统一对比分析。
核心 idea 一句话：首个系统覆盖 LLM ToM 评估和增强两方面的综述，揭示当前研究偏重于 belief 推理，其他心理状态研究严重不足。

方法详解¶

整体框架¶

本文是一篇综述，按"评估→增强→未来方向"组织。评估部分覆盖 10+ 个 story-based 基准（文本 + 多模态），按 ATOMS 7 种心理状态分类对比；增强部分分为纯 prompt 方法和结合额外技术（如 fine-tuning）的方法两类。

关键设计¶

评估基准分析:
做什么：系统对比 ToMi、HI-TOM、TOMBENCH、BigToM、OpenToM 等 10+ 基准在心理状态覆盖、推理阶数（first/second-order）、数据格式等维度
核心发现：绝大多数基准集中在 belief 推理上，TOMBENCH 是覆盖面最广的（5/7 种心理状态）；多模态基准（MMToM-QA、MuMA-ToM）仅限于家庭场景的合成视频
关键问题：现有基准多为"被动"评估（LLM 作为旁观者），缺乏主动决策场景的评测
纯 Prompt 增强策略:
做什么：梳理 4 种仅通过 prompt 工程提升 ToM 的方法
SymbolicToM：为每个角色构建 belief graph，推理时检索相关信念子图作为 prompt，理论上可处理任意阶 belief 问题，但内存随阶数指数增长
SimToM：受"模拟理论"启发，两阶段框架——先做 perspective taking（过滤角色可知信息），再基于过滤后的故事回答问题
PercepToM：三阶段流程——识别信息感知者→提取目标角色可感知的信息→基于此回答
TimeToM：引入时间线，构建"时间信念状态链"（TBSC），将高阶推理通过时间信念交集转化为一阶推理
设计动机：所有方法的共同思路是先识别目标角色的感知/知识范围，再基于受限信息回答，核心挑战是准确构建角色视角
结合额外技术的增强策略:
做什么：梳理 3 种引入微调或符号推理的方法
ToM-LM：用 LLM 做语义解析，将 ToM 问题转为符号形式后用模型检查器（SMCDEL）验证，增加可解释性
BIP-ALM：贝叶斯逆向规划 + LLM，从视频和文本提取符号化信息，fine-tune LLM 预测动作似然
LIMP：多智能体场景，使用 VLM 提取视频信息 + LLM 提取文本信息，通过逆向多智能体规划推理心理状态
设计动机：符号推理增加可验证性，但依赖 fine-tuning 数据，且目前仅在多选题设置下验证

ToM 能力的关键评测结论¶

大多数评测表明 LLM 仍然缺乏稳健的 ToM 能力
Belief 是研究最多的心理状态，其他心理状态（intentions, desires, emotions 等）严重不足
高阶 ToM 推理（second-order 及以上）对 LLM 是显著更难的挑战
多模态 ToM 评测刚刚起步，仅限于合成的家庭场景

实验关键数据¶

主实验 — 基准覆盖对比¶

基准	Beliefs	Intentions	Desires	Emotions	Knowledge	Percepts	Non-literal
ToMi	✓
HI-TOM	✓
TOMBENCH	✓	✓	✓	✓	✓		✓
BigToM	✓	✓	✓
OpenToM	✓		✓		✓
SimpleToM	✓		✓		✓	✓

增强方法对比¶

方法	类型	支持阶数	需要微调	适用场景
SymbolicToM	Prompt-only	任意阶	否	文本 ToM
SimToM	Prompt-only	一阶为主	否	文本 ToM
TimeToM	Prompt-only	高阶	否	文本 ToM
ToM-LM	额外技术	一阶	是	符号化 ToM
BIP-ALM	额外技术	一阶	是	多模态 ToM
LIMP	额外技术	二阶	否	多智能体

关键发现¶

所有 prompt-only 方法都采用流水线架构，存在错误传播风险
SymbolicToM 内存随阶数指数增长，TimeToM 的 TBSC 构建准确率是瓶颈
符号化方法（ToM-LM）增加了透明度和可验证性，但需要逻辑专业知识来准备训练数据
VLM 在动作识别中的幻觉问题是 LIMP 的主要错误来源

亮点与洞察¶

ATOMS 框架作为统一分析视角：用 7 种心理状态维度对比所有基准和方法，清晰揭示了研究偏向——belief 占绝对主导，其他心理状态几乎空白，这为后续研究指明了方向。
"高阶推理→一阶推理"的转化思路（TimeToM）非常巧妙：通过时间信念交集，将 n 阶推理分解为多个 1 阶推理的组合，是可复用的 trick。
被动 vs 主动评测的区分很有价值：当前所有基准都是被动的（LLM 当观察者），但真正的 ToM 需要 LLM 作为主动代理在社交场景中做决策。

局限性 / 可改进方向¶

综述未包含实验对比各增强方法在统一基准上的性能（因为各方法使用不同基准和模型）
对 belief 以外的心理状态（如 emotions、intentions）的增强策略讨论较少
多模态 ToM 目前仅限于 VirtualHome 合成视频，与现实场景差距大
未讨论 LLM 的 ToM 能力与模型规模的关系（scaling law 视角）

评分¶

新颖性: ⭐⭐⭐ 综述类文章，内容组织有新意但无技术创新
实验充分度: ⭐⭐⭐ 系统梳理了各方法但缺乏统一实验对比
写作质量: ⭐⭐⭐⭐ 结构清晰，表格对比直观，未来方向有价值
价值: ⭐⭐⭐⭐ 对 ToM 研究者是很好的入门和参考资源