Theory of Mind for Explainable Human-Robot Interaction¶
会议: AAAI 2026
arXiv: 2512.23482
代码: 无
领域: 人体理解
关键词: 心智理论, 可解释AI, 人机交互, VXAI框架, 用户中心评估
一句话总结¶
提出将心智理论(ToM)视为可解释AI(XAI)的一种形式,使用VXAI框架的七个评价标准系统评估现有HRI中的ToM研究,发现关键缺陷(特别是忠实度缺失),并主张将ToM整合到XAI框架中以实现用户导向的解释。
研究背景与动机¶
随着人机交互(HRI)日益普遍,研究者自然地寻求类人的交互方式来理解机器人行为。这推动了心智理论(Theory of Mind, ToM)在HRI中的应用。
什么是ToM? ToM指人类将信念、欲望、意图等心理状态归因于自己和他人以预测和解释行为的能力。当嵌入机器人时,ToM使机器人能够推断和响应用户的心理状态,促进更自然、适应性和透明的交互。
ToM与XAI的交集: - ToM:强调理解和适应用户心理状态,生成更直觉、用户友好的解释 - XAI:旨在使黑盒模型更透明和可解释,但往往忽视用户中心的评估
两者有共同目标——让内部推理对人类更可理解、增强人机协作,但目前是两个独立的研究社区。
核心问题:现有的ToM研究在HRI中声称能增强用户理解和信任,但这些声明往往未经系统评估。特别是: 1. 现有方法几乎不评估解释是否真实反映了机器人的内部推理(忠实度问题) 2. 缺乏XAI标准的严格评估
方法详解¶
整体框架¶
本文是一篇立场论文(position paper),核心贡献是: 1. 将ToM定位为XAI的一种形式 2. 使用VXAI框架系统评估现有ToM研究 3. 提出将ToM整合到XAI框架中的方向
关键设计¶
1. VXAI框架的七个评价标准¶
作者采用Dembinsky等人(2025)提出的eValuation XAI(VXAI)框架,包含七个核心标准:
| 标准 | 定义 | 评估条件 |
|---|---|---|
| 简约性(Parsimony) | 解释应简洁,避免不必要的复杂性 | 进行了人类评估 |
| 合理性(Plausibility) | 解释应符合人类逻辑和直觉 | 进行了人类评估 |
| 覆盖率(Coverage) | 能否为每个相关输入/输出生成解释 | 报告了成功/失败交互数量 |
| 忠实度(Fidelity) | 解释应真实反映模型的决策过程 | 检查了模型内部推理过程 |
| 连续性(Continuity) | 输入微小变化时解释的鲁棒性 | 实验参与者≥100人 |
| 一致性(Consistency) | 相同/类似实例的解释应一致且可复现 | 实验参与者≥100人 |
| 效率(Efficiency) | 解释方法的计算成本和通用适用性 | 提供了计算实现细节 |
2. 文献分类与评估¶
第一类:人类对机器人的ToM归因
研究人类在无显式ToM机制时是否自然地将ToM归因于机器人: - Banks (2020):当机器人显示清晰可解读的社交线索时,人类可以类似于解读人类行为般解读机器人;但线索偏离人类预期时理解下降 - Verma et al. (2024):LLM虽可作为HRI中的有用工具,但并非可靠的ToM代理
第二类:嵌入ToM推理的机器人评估
研究将ToM直接嵌入机器人对信任、帮助性和理解的影响: - Mou et al. (2020):具有ToM能力的机器人被感知更正面 - Cantucci & Falcone (2022):与用户目标对齐的帮助更受欢迎 - Shvo et al. (2022):推理人类信念的机器人被认为更有帮助和社会能力 - Angelopoulos et al. (2025):也被认为更值得信任 - Yuan et al. (2022):但并非所有解释都同样有效 - Kerzel et al. (2022):多层次解释可改善用户理解
3. 评估结果矩阵¶
| 论文 | 简约性 | 合理性 | 覆盖率 | 忠实度 | 连续性 | 一致性 | 效率 |
|---|---|---|---|---|---|---|---|
| Banks (2020) | ✓ | ✓ | ✓ | ||||
| Mou et al. (2020) | ✓ | ✓ | |||||
| Cantucci & Falcone (2022) | ✓ | ✓ | ✓ | ||||
| Kerzel et al. (2022) | ✓ | ✓ | ✓ | ||||
| Shvo et al. (2022) | ✓ | ✓ | ✓ | ||||
| Yuan et al. (2022) | ✓ | ✓ | ✓ | ✓ | ✓ | ||
| Verma et al. (2024) | ✓ | ✓ | ✓ | ||||
| Angelopoulos et al. (2025) | ✓ | ✓ | ✓ | ✓ | ✓ |
损失函数 / 训练策略¶
本文为立场/综述论文,不涉及模型训练。核心贡献在分析框架层面。
实验关键数据¶
主实验¶
本文为分析性论文,主要实验数据来自对现有8篇ToM研究的系统评估:
| 评价标准 | 满足的论文数/总数 | 发现 |
|---|---|---|
| 简约性 | 8/8 (100%) | 所有研究都进行了人类评估 |
| 合理性 | 8/8 (100%) | 所有研究都评估了解释的可信度 |
| 覆盖率 | 0/8 (0%) | 无一报告成功vs失败交互数量 |
| 忠实度 | 0/8 (0%) | 无一检查模型内部推理过程 |
| 连续性 | 2/8 (25%) | 仅两项研究有≥100参与者 |
| 一致性 | 6/8 (75%) | 多数报告了一致性相关信息 |
| 效率 | 2/8 (25%) | 仅两项提供了计算实现细节 |
消融实验¶
本文以比较分析替代消融:
| 对比维度 | ToM | 传统XAI | 差距 |
|---|---|---|---|
| 用户中心评估 | 强 | 弱 | ToM更注重用户感知 |
| 模型忠实度 | 弱 | 可能强 | ToM忽视内部推理验证 |
| 解释可信度 | 已验证 | 技术导向 | 关注点不同 |
| 参与者规模 | 多<100 | 变化大 | ToM需扩大规模 |
| 可复现性 | 弱 | 因领域而异 | 共同问题 |
关键发现¶
- 忠实度是最大盲区:所有8篇论文都未检查解释是否真实反映模型内部推理,存在误导用户的风险。机器人给出的解释可能跟实际决策过程完全无关
- 覆盖率完全缺失:没有论文报告成功vs失败交互的比率,无法评估方法在实际场景中的可靠性
- 用户中心评估是ToM的优势:所有研究都进行了人类评估(满足简约性和合理性),这正是XAI领域常缺失的
- 规模化问题:大多数研究参与者不足100人,限制了结论的可推广性
亮点与洞察¶
- 跨学科桥接的价值巨大——将ToM(认知科学/HRI)和XAI(AI/ML)两个社区连接起来,指出互补性:ToM有用户中心但缺忠实度,XAI有技术严谨但缺用户视角
- 忠实度的核心重要性:如果机器人的"解释"不反映其真实推理,那解释就是一种伪装,可能适得其反让用户产生错误的信任
- VXAI框架的系统性:七个评价标准为未来的ToM+XAI工作提供了清晰的检查清单
- 视角转换的提议具有前瞻性——从"AI系统本身的可解释性"转向"用户信息需求驱动的解释"
局限与展望¶
- 缺乏实证验证:论文仅提出框架和分析,未实际构建整合ToM+XAI的系统
- 评估标准的映射可能过于简化:如"进行了人类评估"就满足简约性和合理性,这一映射可能不够精确
- 覆盖范围有限:仅分析8篇论文,可能遗漏了相关工作
- 实施路径不够具体:提到了贝叶斯强化学习、行为树、可解释强化学习等方向,但缺乏技术细节
- 连续性和一致性的评估标准(≥100参与者)较为武断,HRI领域100人的被试量其实已经相当大
相关工作与启发¶
- VXAI框架(Dembinsky et al., 2025)提供了统一的XAI评估标准,本文首次将其应用于ToM研究
- Angelopoulos et al. (2025)是同时满足最多VXAI标准的ToM研究,可作为未来工作的参考
- 贝叶斯强化学习、行为树和可解释强化学习(XRL)被建议作为未来整合ToM+XAI的技术路径
- 本文的分析方法可扩展到评估其他声称提供"解释"的HRI系统
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将ToM作为XAI进行评估的视角新颖
- 实验充分度: ⭐⭐ — 仅为文献分析,无实证实验
- 写作质量: ⭐⭐⭐⭐ — 论述清晰,逻辑链路完整
- 价值: ⭐⭐⭐ — 立场论文,提供了重要方向但需后续实证支持
相关论文¶
- [CVPR 2026] UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos
- [AAAI 2026] Behavior Tokens Speak Louder: Disentangled Explainable Recommendation with Behavior Vocabulary
- [ICCV 2025] AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning
- [CVPR 2026] ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data
- [NeurIPS 2025] HOI-Dyn: Learning Interaction Dynamics for Human-Object Motion Diffusion