MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents¶

会议: CVPR 2026
arXiv: 2511.23055
代码: https://zhangdaxia22.github.io/MindPower/ (Benchmark)
领域: robotics
关键词: Theory of Mind, BDI推理, 具身Agent, Mind-Reward, GRPO, Robot-Centric

一句话总结¶

MindPower 提出以机器人为中心（Robot-Centric）的心智理论推理框架，将感知→信念→欲望→意图→决策→行动组织为三级六层推理层级（MindPower Reasoning Hierarchy），并用 Mind-Reward（基于 GRPO 强化学习）优化推理一致性，在决策和动作生成上分别超过 GPT-4o 12.77% 和 12.49%。

背景与动机¶

具身 Agent 缺乏心智推理能力：现有 VLM-based 具身 agent 只能执行显式指令，无法推断人类的信念、欲望和意图，更无法据此主动提供帮助
现有 ToM Benchmark 只关注角色视角（Role-Centric）：MuMA-ToM、MMToM-QA 等 benchmark 只推断视频中人物的心理状态，不涉及 agent 自身视角的推理
缺少从推理到行动的闭环：现有 benchmark 多为选择题形式，不要求 agent 基于心智推理生成可执行的决策和动作序列
VLM 在高层推理上表现差：实验表明 GPT-4o、Gemini 等闭源 VLM 虽然感知层尚可，但在信念推理和行动生成上远低于人类水平
开源 VLM 更为薄弱：InternVL3.5、LLaVA-OV 等在动作生成上 SR/AC 几乎为零，输出多为不可执行的模糊表述
标准 CoT 推理效果有限：通用的 <think> 推理链在心智推理任务上不如结构化的 BDI 推理层级

方法详解¶

整体框架¶

MindPower 包含三部分：(1) MindPower Benchmark——590 个家庭场景的数据集，含两个任务；(2) MindPower Reasoning Hierarchy——三级六层结构化推理；(3) Mind-Reward——基于 GRPO 的强化学习优化。基础模型为 Qwen2.5-VL-7B-Instruct。

MindPower Reasoning Hierarchy（三级六层）¶

Level-1 感知 <Perception>：观察环境，理解当前发生了什么
Level-2 心智推理：
<Belief>：推断自己和人类的信念（含二阶信念——"我认为 Alice 认为苹果在桌上"）
<Desire>：确定辅助目标（"Alice 想喝牛奶"）
<Intention>：形成具体行动意图（"我应该帮她从冰箱拿牛奶"）
Level-3 决策与行动：
<Decision>：选择行动计划
<Action>：输出原子操作序列，如 walk(fridge), open(fridge), pick(milk)

Robot-Centric 视角（核心创新）¶

区别于现有 Role-Centric 设计：agent 不仅推断他人心理状态，还显式建模自己的信念，形成完整的二阶推理闭环。例如："我知道苹果实际在冰箱里"+"我推断 Alice 认为苹果在桌上"→"她的信念是错的，我应该帮她纠正"。

两个核心任务¶

错误信念纠正（False-Belief Correction）：检测人类对环境的错误信念（如物体被移动但人不知道），agent 需识别矛盾并主动纠正
隐式目标推断与完成（Implicit Goal Inference & Completion）：从人类的搜索行为、重复失败等微妙线索推断隐含目标并提供帮助。覆盖特殊人群（轮椅用户、儿童）、物体属性推理、功能组合、对话推断四类场景

Mind-Reward 训练策略¶

两阶段训练：(1) SFT 冷启动（5 epochs），建立基本推理对齐；(2) GRPO 强化优化（400 iterations，每次采样 8 个输出）。

Mind-Reward 设计：将每层推理输出由 Qwen3-Max 转换为原子动作序列，计算三种对齐指标： - 原子准确度（ROUGE-1）：正确匹配的原子动作比例，标注视角属性确保 Robot-Centric 对齐 - 局部一致性（ROUGE-2）：相邻原子对的连贯性 - 全局一致性（ROUGE-L）：整体推理序列的对齐度

\[R_{\text{Mind}} = \alpha_1 R_{\text{atomic}} + \alpha_2 R_{\text{local}} + \alpha_3 R_{\text{global}}\]

其中 \(\alpha_1=0.2, \alpha_2=0.3, \alpha_3=0.5\)，辅以格式奖励 \(R_{\text{Format}}\)（检查六层标签是否按序出现），总奖励 \(R = R_{\text{Mind}} + R_{\text{Format}}\)，用 GRPO 优化。

实验关键数据¶

主实验：与基线 VLM 对比¶

方法	Decision (S↑)	Action SR↑	Action AC↑	BPC↑
GPT-4o（图像输入）	34.35	1.82	2.91	8.05
Gemini-2.5 Pro（视频输入）	33.87	2.08	2.54	8.56
Video-R1-7B	30.33	1.43	1.72	6.45
Qwen2.5-VL-7B（base）	26.56	0.29	0.22	6.07
Ours (SFT+Mind-Reward)	47.12	11.75	15.40	8.87
Human Baseline	56.66	19.37	26.26	8.19

相对 GPT-4o：决策 Sentence Transformer +12.77pp，动作准确率 AC +12.49pp。

消融实验¶

配置	Decision (S↑)	Action AC↑	BPC↑
Qwen2.5-VL-7B（基线）	26.56	0.22	6.07
Mind-Reward only（无 SFT）	24.68	0.40	6.63
SFT only（无 RL）	43.84	10.48	8.78
SFT + Mind-Reward	47.12	15.40	8.87

仅 SFT 已带来巨大提升（AC: 0.22→10.48），说明推理层级结构本身非常有效
仅 Mind-Reward 无 SFT 效果有限（AC: 0.40），证明需要 SFT 冷启动
SFT+RL 组合最优，RL 在 SFT 基础上进一步提升约 5 个点
MindPower Hierarchy vs 标准 CoT（GPT-4o 上测试）：结构化 BDI 推理比通用 <think> 推理在决策上好 4.89%

亮点¶

认知科学 × 具身 AI 的系统化结合：将 BDI 框架（信念-欲望-意图）系统化地引入 VLM agent，形成从感知到行动的可解释推理链
Robot-Centric 视角创新：首次要求 agent 同时建模自己和他人的信念，实现二阶心智推理，与现有 Role-Centric benchmark 形成本质区别
Mind-Reward 奖励设计精巧：将推理质量分解为原子-局部-全局三个粒度，比黑盒 LLM 评分更可控、可复现
任务设计有洞察力：错误信念纠正和隐式目标推断都是真实人机协作中的核心场景，且覆盖轮椅用户/儿童等特殊人群

局限性 / 可改进方向¶

数据规模有限：590 个样本偏少，且仅覆盖两个模拟器（VirtualHome + ThreeDWorld），泛化到真实物理环境存疑
动作空间受限：原子动作为高层操作（如 pick(apple)），未涉及底层运动控制（关节角度、力控），与真实机器人部署仍有鸿沟
评估依赖 LLM：BPC 评分由 GPT-4o 打分，存在评估偏差和不可复现性
计算成本：GRPO 训练需要 H800 GPU，对资源受限的研究者不友好
未验证多轮交互：所有场景为单轮推理，未测试 agent 在持续交互中维持信念一致性的能力

与相关工作的对比¶

vs MuMA-ToM / MMToM-QA（现有 ToM Benchmark）¶

MuMA-ToM 和 MMToM-QA 只推断视频中角色的心理状态（Role-Centric），输出为选择题答案，不涉及决策和行动生成。MindPower 是 Robot-Centric 的，要求 agent 从自身视角推理并输出可执行的原子动作序列，同时评估从感知到行动的完整推理链。

vs Smart-Help / RoboBench（具身协作 Agent）¶

Smart-Help 依赖预定义目标优化人机舒适度，RoboBench 将高层目标分解为子任务顺序执行。两者都不进行心智推理——不涉及一阶/二阶信念推理。MindPower 的关键区别在于 agent 需要推断"人类相信什么"以及"我自己知道什么"，然后基于心理状态差异做决策，而非仅执行给定目标。

vs Visual-RFT / LLaVA-CoT（推理增强 VLM）¶

Visual-RFT 和 LLaVA-CoT 提供通用的视觉推理增强方法。MindPower 的 MindPower Reasoning Hierarchy 是专门为 ToM 设计的结构化推理（Perception→Belief→Desire→Intention→Decision→Action），实验证明比通用 CoT 在决策任务上高 4.89%。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — Robot-Centric ToM + 三级六层推理层级 + Mind-Reward 均为首创
实验充分度: ⭐⭐⭐⭐ — 对比 10+ 基线 VLM，有消融和定性分析，但数据规模偏小
写作质量: ⭐⭐⭐⭐ — 框架清晰，图示丰富，层次分明
价值: ⭐⭐⭐⭐ — 为具身 AI 的社会智能提供了重要基准和方法，但与真实机器人部署仍有距离