Theory of Mind for Explainable Human-Robot Interaction¶

会议: AAAI 2026
arXiv: 2512.23482
代码: 无
领域: 人体理解
关键词: 心智理论, 可解释AI, 人机交互, VXAI框架, 用户中心评估

一句话总结¶

提出将心智理论（ToM）视为可解释AI（XAI）的一种形式，使用VXAI框架的七个评价标准系统评估现有HRI中的ToM研究，发现关键缺陷（特别是忠实度缺失），并主张将ToM整合到XAI框架中以实现用户导向的解释。

研究背景与动机¶

随着人机交互（HRI）日益普遍，研究者自然地寻求类人的交互方式来理解机器人行为。这推动了心智理论（Theory of Mind, ToM）在HRI中的应用。

什么是ToM？ ToM指人类将信念、欲望、意图等心理状态归因于自己和他人以预测和解释行为的能力。当嵌入机器人时，ToM使机器人能够推断和响应用户的心理状态，促进更自然、适应性和透明的交互。

ToM与XAI的交集： - ToM：强调理解和适应用户心理状态，生成更直觉、用户友好的解释 - XAI：旨在使黑盒模型更透明和可解释，但往往忽视用户中心的评估

两者有共同目标——让内部推理对人类更可理解、增强人机协作，但目前是两个独立的研究社区。

核心问题：现有的ToM研究在HRI中声称能增强用户理解和信任，但这些声明往往未经系统评估。特别是： 1. 现有方法几乎不评估解释是否真实反映了机器人的内部推理（忠实度问题） 2. 缺乏XAI标准的严格评估

方法详解¶

整体框架¶

本文是一篇立场论文（position paper），核心贡献是： 1. 将ToM定位为XAI的一种形式 2. 使用VXAI框架系统评估现有ToM研究 3. 提出将ToM整合到XAI框架中的方向

关键设计¶

1. VXAI框架的七个评价标准¶

作者采用Dembinsky等人（2025）提出的eValuation XAI（VXAI）框架，包含七个核心标准：

标准	定义	评估条件
简约性（Parsimony）	解释应简洁，避免不必要的复杂性	进行了人类评估
合理性（Plausibility）	解释应符合人类逻辑和直觉	进行了人类评估
覆盖率（Coverage）	能否为每个相关输入/输出生成解释	报告了成功/失败交互数量
忠实度（Fidelity）	解释应真实反映模型的决策过程	检查了模型内部推理过程
连续性（Continuity）	输入微小变化时解释的鲁棒性	实验参与者≥100人
一致性（Consistency）	相同/类似实例的解释应一致且可复现	实验参与者≥100人
效率（Efficiency）	解释方法的计算成本和通用适用性	提供了计算实现细节

2. 文献分类与评估¶

第一类：人类对机器人的ToM归因

研究人类在无显式ToM机制时是否自然地将ToM归因于机器人： - Banks (2020)：当机器人显示清晰可解读的社交线索时，人类可以类似于解读人类行为般解读机器人；但线索偏离人类预期时理解下降 - Verma et al. (2024)：LLM虽可作为HRI中的有用工具，但并非可靠的ToM代理

第二类：嵌入ToM推理的机器人评估

研究将ToM直接嵌入机器人对信任、帮助性和理解的影响： - Mou et al. (2020)：具有ToM能力的机器人被感知更正面 - Cantucci & Falcone (2022)：与用户目标对齐的帮助更受欢迎 - Shvo et al. (2022)：推理人类信念的机器人被认为更有帮助和社会能力 - Angelopoulos et al. (2025)：也被认为更值得信任 - Yuan et al. (2022)：但并非所有解释都同样有效 - Kerzel et al. (2022)：多层次解释可改善用户理解

3. 评估结果矩阵¶

论文	简约性	合理性	连续性	一致性	效率
Banks (2020)	✓	✓		✓
Mou et al. (2020)	✓	✓
Cantucci & Falcone (2022)	✓	✓		✓
Kerzel et al. (2022)	✓	✓		✓
Shvo et al. (2022)	✓	✓		✓
Yuan et al. (2022)	✓	✓	✓	✓	✓
Verma et al. (2024)	✓	✓		✓
Angelopoulos et al. (2025)	✓	✓	✓	✓	✓

损失函数 / 训练策略¶

本文为立场/综述论文，不涉及模型训练。核心贡献在分析框架层面。

实验关键数据¶

主实验¶

本文为分析性论文，主要实验数据来自对现有8篇ToM研究的系统评估：

评价标准	满足的论文数/总数	发现
简约性	8/8 (100%)	所有研究都进行了人类评估
合理性	8/8 (100%)	所有研究都评估了解释的可信度
覆盖率	0/8 (0%)	无一报告成功vs失败交互数量
忠实度	0/8 (0%)	无一检查模型内部推理过程
连续性	2/8 (25%)	仅两项研究有≥100参与者
一致性	6/8 (75%)	多数报告了一致性相关信息
效率	2/8 (25%)	仅两项提供了计算实现细节

消融实验¶

本文以比较分析替代消融：

对比维度	ToM	传统XAI	差距
用户中心评估	强	弱	ToM更注重用户感知
模型忠实度	弱	可能强	ToM忽视内部推理验证
解释可信度	已验证	技术导向	关注点不同
参与者规模	多<100	变化大	ToM需扩大规模
可复现性	弱	因领域而异	共同问题

关键发现¶

忠实度是最大盲区：所有8篇论文都未检查解释是否真实反映模型内部推理，存在误导用户的风险。机器人给出的解释可能跟实际决策过程完全无关
覆盖率完全缺失：没有论文报告成功vs失败交互的比率，无法评估方法在实际场景中的可靠性
用户中心评估是ToM的优势：所有研究都进行了人类评估（满足简约性和合理性），这正是XAI领域常缺失的
规模化问题：大多数研究参与者不足100人，限制了结论的可推广性

亮点与洞察¶

跨学科桥接的价值巨大——将ToM（认知科学/HRI）和XAI（AI/ML）两个社区连接起来，指出互补性：ToM有用户中心但缺忠实度，XAI有技术严谨但缺用户视角
忠实度的核心重要性：如果机器人的"解释"不反映其真实推理，那解释就是一种伪装，可能适得其反让用户产生错误的信任
VXAI框架的系统性：七个评价标准为未来的ToM+XAI工作提供了清晰的检查清单
视角转换的提议具有前瞻性——从"AI系统本身的可解释性"转向"用户信息需求驱动的解释"

局限与展望¶

缺乏实证验证：论文仅提出框架和分析，未实际构建整合ToM+XAI的系统
评估标准的映射可能过于简化：如"进行了人类评估"就满足简约性和合理性，这一映射可能不够精确
覆盖范围有限：仅分析8篇论文，可能遗漏了相关工作
实施路径不够具体：提到了贝叶斯强化学习、行为树、可解释强化学习等方向，但缺乏技术细节
连续性和一致性的评估标准（≥100参与者）较为武断，HRI领域100人的被试量其实已经相当大

评分¶

新颖性: ⭐⭐⭐⭐ — 将ToM作为XAI进行评估的视角新颖
实验充分度: ⭐⭐ — 仅为文献分析，无实证实验
写作质量: ⭐⭐⭐⭐ — 论述清晰，逻辑链路完整
价值: ⭐⭐⭐ — 立场论文，提供了重要方向但需后续实证支持