跳转至

Theory of Mind for Explainable Human-Robot Interaction

会议: AAAI 2026
arXiv: 2512.23482
代码: 无
领域: 人体理解
关键词: 心智理论, 可解释AI, 人机交互, VXAI框架, 用户中心评估

一句话总结

提出将心智理论(ToM)视为可解释AI(XAI)的一种形式,使用VXAI框架的七个评价标准系统评估现有HRI中的ToM研究,发现关键缺陷(特别是忠实度缺失),并主张将ToM整合到XAI框架中以实现用户导向的解释。

研究背景与动机

随着人机交互(HRI)日益普遍,研究者自然地寻求类人的交互方式来理解机器人行为。这推动了心智理论(Theory of Mind, ToM)在HRI中的应用。

什么是ToM? ToM指人类将信念、欲望、意图等心理状态归因于自己和他人以预测和解释行为的能力。当嵌入机器人时,ToM使机器人能够推断和响应用户的心理状态,促进更自然、适应性和透明的交互。

ToM与XAI的交集: - ToM:强调理解和适应用户心理状态,生成更直觉、用户友好的解释 - XAI:旨在使黑盒模型更透明和可解释,但往往忽视用户中心的评估

两者有共同目标——让内部推理对人类更可理解、增强人机协作,但目前是两个独立的研究社区。

核心问题:现有的ToM研究在HRI中声称能增强用户理解和信任,但这些声明往往未经系统评估。特别是: 1. 现有方法几乎不评估解释是否真实反映了机器人的内部推理(忠实度问题) 2. 缺乏XAI标准的严格评估

方法详解

整体框架

本文是一篇立场论文(position paper),核心贡献是: 1. 将ToM定位为XAI的一种形式 2. 使用VXAI框架系统评估现有ToM研究 3. 提出将ToM整合到XAI框架中的方向

关键设计

1. VXAI框架的七个评价标准

作者采用Dembinsky等人(2025)提出的eValuation XAI(VXAI)框架,包含七个核心标准:

标准 定义 评估条件
简约性(Parsimony) 解释应简洁,避免不必要的复杂性 进行了人类评估
合理性(Plausibility) 解释应符合人类逻辑和直觉 进行了人类评估
覆盖率(Coverage) 能否为每个相关输入/输出生成解释 报告了成功/失败交互数量
忠实度(Fidelity) 解释应真实反映模型的决策过程 检查了模型内部推理过程
连续性(Continuity) 输入微小变化时解释的鲁棒性 实验参与者≥100人
一致性(Consistency) 相同/类似实例的解释应一致且可复现 实验参与者≥100人
效率(Efficiency) 解释方法的计算成本和通用适用性 提供了计算实现细节

2. 文献分类与评估

第一类:人类对机器人的ToM归因

研究人类在无显式ToM机制时是否自然地将ToM归因于机器人: - Banks (2020):当机器人显示清晰可解读的社交线索时,人类可以类似于解读人类行为般解读机器人;但线索偏离人类预期时理解下降 - Verma et al. (2024):LLM虽可作为HRI中的有用工具,但并非可靠的ToM代理

第二类:嵌入ToM推理的机器人评估

研究将ToM直接嵌入机器人对信任、帮助性和理解的影响: - Mou et al. (2020):具有ToM能力的机器人被感知更正面 - Cantucci & Falcone (2022):与用户目标对齐的帮助更受欢迎 - Shvo et al. (2022):推理人类信念的机器人被认为更有帮助和社会能力 - Angelopoulos et al. (2025):也被认为更值得信任 - Yuan et al. (2022):但并非所有解释都同样有效 - Kerzel et al. (2022):多层次解释可改善用户理解

3. 评估结果矩阵

论文 简约性 合理性 覆盖率 忠实度 连续性 一致性 效率
Banks (2020)
Mou et al. (2020)
Cantucci & Falcone (2022)
Kerzel et al. (2022)
Shvo et al. (2022)
Yuan et al. (2022)
Verma et al. (2024)
Angelopoulos et al. (2025)

损失函数 / 训练策略

本文为立场/综述论文,不涉及模型训练。核心贡献在分析框架层面。

实验关键数据

主实验

本文为分析性论文,主要实验数据来自对现有8篇ToM研究的系统评估:

评价标准 满足的论文数/总数 发现
简约性 8/8 (100%) 所有研究都进行了人类评估
合理性 8/8 (100%) 所有研究都评估了解释的可信度
覆盖率 0/8 (0%) 无一报告成功vs失败交互数量
忠实度 0/8 (0%) 无一检查模型内部推理过程
连续性 2/8 (25%) 仅两项研究有≥100参与者
一致性 6/8 (75%) 多数报告了一致性相关信息
效率 2/8 (25%) 仅两项提供了计算实现细节

消融实验

本文以比较分析替代消融:

对比维度 ToM 传统XAI 差距
用户中心评估 ToM更注重用户感知
模型忠实度 可能强 ToM忽视内部推理验证
解释可信度 已验证 技术导向 关注点不同
参与者规模 多<100 变化大 ToM需扩大规模
可复现性 因领域而异 共同问题

关键发现

  1. 忠实度是最大盲区:所有8篇论文都未检查解释是否真实反映模型内部推理,存在误导用户的风险。机器人给出的解释可能跟实际决策过程完全无关
  2. 覆盖率完全缺失:没有论文报告成功vs失败交互的比率,无法评估方法在实际场景中的可靠性
  3. 用户中心评估是ToM的优势:所有研究都进行了人类评估(满足简约性和合理性),这正是XAI领域常缺失的
  4. 规模化问题:大多数研究参与者不足100人,限制了结论的可推广性

亮点与洞察

  1. 跨学科桥接的价值巨大——将ToM(认知科学/HRI)和XAI(AI/ML)两个社区连接起来,指出互补性:ToM有用户中心但缺忠实度,XAI有技术严谨但缺用户视角
  2. 忠实度的核心重要性:如果机器人的"解释"不反映其真实推理,那解释就是一种伪装,可能适得其反让用户产生错误的信任
  3. VXAI框架的系统性:七个评价标准为未来的ToM+XAI工作提供了清晰的检查清单
  4. 视角转换的提议具有前瞻性——从"AI系统本身的可解释性"转向"用户信息需求驱动的解释"

局限与展望

  1. 缺乏实证验证:论文仅提出框架和分析,未实际构建整合ToM+XAI的系统
  2. 评估标准的映射可能过于简化:如"进行了人类评估"就满足简约性和合理性,这一映射可能不够精确
  3. 覆盖范围有限:仅分析8篇论文,可能遗漏了相关工作
  4. 实施路径不够具体:提到了贝叶斯强化学习、行为树、可解释强化学习等方向,但缺乏技术细节
  5. 连续性和一致性的评估标准(≥100参与者)较为武断,HRI领域100人的被试量其实已经相当大

相关工作与启发

  • VXAI框架(Dembinsky et al., 2025)提供了统一的XAI评估标准,本文首次将其应用于ToM研究
  • Angelopoulos et al. (2025)是同时满足最多VXAI标准的ToM研究,可作为未来工作的参考
  • 贝叶斯强化学习、行为树和可解释强化学习(XRL)被建议作为未来整合ToM+XAI的技术路径
  • 本文的分析方法可扩展到评估其他声称提供"解释"的HRI系统

评分

  • 新颖性: ⭐⭐⭐⭐ — 将ToM作为XAI进行评估的视角新颖
  • 实验充分度: ⭐⭐ — 仅为文献分析,无实证实验
  • 写作质量: ⭐⭐⭐⭐ — 论述清晰,逻辑链路完整
  • 价值: ⭐⭐⭐ — 立场论文,提供了重要方向但需后续实证支持

相关论文