MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents¶

会议: CVPR 2026
arXiv: 2511.23055
代码: https://zhangdaxia22.github.io/MindPower/ (Benchmark)
领域: 具身智能 / 心智理论 / VLM Agent
关键词: Theory of Mind, BDI推理, 具身Agent, Mind-Reward, GRPO

一句话总结¶

MindPower 提出了以机器人为中心的心智理论（ToM）推理框架，将感知→信念→欲望→意图→决策→行动组织为六层推理层级，并用 Mind-Reward（基于 GRPO）优化推理一致性，在决策和动作生成上分别超过 GPT-4o 12.77% 和 12.49%。

背景与动机¶

现有 VLM-based 具身 agent 只能执行显式指令，缺乏推断人类信念、欲望和意图的能力。现有的 ToM benchmark 只关注推断视频中人物的心理状态（角色中心），不涉及 agent 自身的视角推理，也不要求生成决策和动作。这意味着 agent 无法做到"理解人类在想什么，然后主动帮忙"。

核心问题¶

如何让具身 agent 从自身视角出发，推断人类的心理状态（信念、欲望、意图），并基于此推理做出主动的决策和行动？

方法详解¶

整体框架¶

MindPower 包含三部分：(1) MindPower Benchmark——590 个家庭场景（VirtualHome + ThreeDWorld），含两个任务（错误信念纠正、隐式目标推断）；(2) MindPower Reasoning Hierarchy——三级六层推理层级结构；(3) Mind-Reward——基于 GRPO 的强化学习优化，用 SFT+RL 两阶段训练。基础模型为 Qwen2.5-VL-7B。

关键设计¶

MindPower Reasoning Hierarchy（六层推理结构）:
Level-1 感知 <Perception>：观察环境和人类行为
Level-2 心智推理: <Belief>（推断自己和人类的信念，含二阶信念——"我认为Alice认为苹果在桌上"）→ <Desire>（确定辅助目标）→ <Intention>（形成具体行动意图）
Level-3 决策与行动: <Decision>（选择计划）→ <Action>（输出原子操作序列如 walk(fridge), open(fridge), pick(apple)）
Robot-Centric 视角（区别于现有 Role-Centric benchmark）: 现有 ToM benchmark 只推断视频中人物的心理状态。MindPower 要求 agent 同时推断自己的信念和人类的信念，形成完整的推理闭环。例如："我认为 Alice 在找苹果" + "我知道苹果实际在冰箱里" → "我应该帮她从冰箱拿苹果"
Mind-Reward（基于 ROUGE 的原子动作匹配奖励）: 将每层推理输出转换为原子动作序列（由 Qwen3-Max 提取），然后计算三种对齐指标：原子准确度（ROUGE-1）、局部一致性（ROUGE-2）、全局一致性（ROUGE-L）。最终 \(R_{\text{Mind}} = \alpha_1 R_{\text{atomic}} + \alpha_2 R_{\text{local}} + \alpha_3 R_{\text{global}}\)，辅以格式奖励，用 GRPO 优化。

损失函数 / 训练策略¶

两阶段训练：(1) SFT 冷启动（5 epochs），建立基本推理能力；(2) GRPO 强化（400 iterations，8 个生成样本），用 Mind-Reward + Format-Reward。训练在单卡 H800 上完成。

实验关键数据¶

方法	Decision (S)	Action SR	Action AC	BPC
GPT-4o (图像输入)	34.35	1.82	2.91	8.05
Gemini-2.5 Pro	33.87	2.08	2.54	8.56
Video-R1	30.33	1.43	1.72	6.45
Qwen2.5-VL-7B (base)	26.56	0.29	0.22	6.07
Ours (SFT+Mind-Reward)	47.12	11.75	15.40	8.87
Human Baseline	56.66	19.37	26.26	8.19

相对 GPT-4o: 决策 +12.77pp，动作准确率 +12.49pp。

消融实验要点¶

仅 SFT（无 RL）: 已有较大提升（Action AC: 0.22→10.48），说明推理层级结构本身有效
仅 Mind-Reward（无 SFT）: 效果有限（AC: 0.40），说明需要 SFT 冷启动
SFT+Mind-Reward: 最优（AC: 15.40），RL 在 SFT 基础上进一步提升约 5 个点
MindPower Hierarchy vs 直接输出: GPT-4o 去掉推理层级后决策准确率下降 1.24%，动作下降更多
MindPower Hierarchy vs 标准 CoT: MindPower 的结构化 BDI 推理比通用 <think> 推理好 4.89%

亮点¶

将认知科学中的 BDI 框架（信念-欲望-意图）系统化地引入具身 agent，形成可解释的推理链
Robot-Centric 视角是核心创新——agent 不仅推断他人心理状态，还显式建模自己的信念，实现二阶推理
Mind-Reward 将推理质量分解为原子-局部-全局三个粒度的一致性评估，比黑盒 LLM 评分更可控
两个任务设计很有洞察力：错误信念纠正（agent 知道物体被移动了但人不知道）和隐式目标推断（从人搜索行为推断需求）

局限性 / 可改进方向¶

数据集仅 590 个场景，且全部来自模拟器（VirtualHome + ThreeDWorld），场景多样性受限
动作空间较粗（高层原子操作如 walk(fridge)），未涉及底层运动控制
Mind-Reward 依赖 Qwen3-Max 提取原子动作，引入了额外的 LLM 依赖
开放式评估的自动指标（BERTScore、ROUGE）是否能真正反映推理质量存疑

与相关工作的对比¶

vs MuMA-ToM/MMToM-QA: 这些只做角色心理状态推断（选择题），MindPower 要求 agent 从自身视角做完整的 BDI 推理 + 动作生成
vs Smart-Help/AToM-Bot: 这些做人机交互辅助但缺乏显式心智推理。MindPower 明确建模了信念不一致的检测与纠正
vs Video-R1/VideoChat-R1: 这些专注视频理解的 RL 训练，但不涉及 ToM 推理和具身决策

启发与关联¶

BDI 推理层级可以作为一种"结构化 CoT"推广到其他需要推理他人意图的任务（如社交对话、协作博弈）
Mind-Reward 的设计思路——将过程拆解为原子操作再评估一致性——对其他需要过程奖励的 RL 任务有参考价值
可以探索将 MindPower 的高层推理与 VLA 模型（如 MergeVLA）的底层执行结合，构建端到端具身系统

评分¶

新颖性: ⭐⭐⭐⭐⭐ Robot-Centric ToM + BDI 推理层级是全新视角
实验充分度: ⭐⭐⭐⭐ 对比了多个闭源/开源 VLM + 人类基线，但数据集规模偏小
写作质量: ⭐⭐⭐⭐ 概念清晰、层次分明，但附录过长
价值: ⭐⭐⭐⭐ 为具身 agent 赋予 ToM 能力是重要方向，但距离实际应用还有距离