RoboAgent: Chaining Basic Capabilities for Embodied Task Planning¶

会议: CVPR 2026
arXiv: 2604.07774
代码: https://github.com/woyut/RoboAgent_CVPR26
领域: Agent / 具身智能
关键词: 具身任务规划, 能力链式调用, 视觉语言模型, 强化学习, 多阶段训练

一句话总结¶

提出 RoboAgent，一种能力驱动的具身任务规划框架，用单个 VLM 同时实现调度器和 5 种基本能力（探索引导、物体定位、场景描述、动作解码、经验总结），通过三阶段训练（SFT + DAgger + 专家引导 RL）在 EB-ALFRED 和 ALFWorld 上达到 SOTA。

研究背景与动机¶

领域现状：具身任务规划（ETP）要求智能体根据视觉观察和语言指令，在环境中执行原子动作序列完成复杂任务。VLM 虽在多模态理解上表现出色，但在涉及多轮交互、长视野推理、扩展上下文分析的具身规划中表现有限。
现有痛点：(1) 直接用 CoT 推理产生的中间思考缺乏规范化格式和直接监督，难以保证推理的正确性和实用性；(2) 依赖闭源模型或外部工具的方法无法端到端训练；(3) 标准 RL 在稀疏奖励的探索场景中难以学习有效策略。
核心矛盾：复杂规划隐含多个中间过程（意图理解、常识推理、环境分析、动作建模、进度监控），但现有方法将其混为一体，难以对中间步骤施加精细监督。
本文目标 将复杂规划分解为一系列基本视觉-语言问题，使单个 VLM 能通过显式的能力调用实现可控、透明的推理过程。
切入角度：定义一组对具身场景关键的视觉-语言能力，由调度器决定何时调用什么能力，每个能力维护自己的上下文并产生中间推理结果或环境交互。
核心 idea：用一个 VLM 同时扮演调度器和多种能力角色，将"自由格式 CoT"替换为"结构化能力调用链"，配合利用模拟器内部信息的多阶段训练。

方法详解¶

整体框架¶

RoboAgent 由一个调度器（Scheduler）和 5 种能力（Capability）组成，全部用同一个 VLM（Qwen2.5-VL-3B）实现。调度器接收任务指令和历史上下文，生成 [(能力名, 查询)] 序列；每个能力接收查询和可选的观察图像，输出动作序列或文本反馈给调度器。整个过程无需外部工具。

关键设计¶

5 种基本能力的设计:
- 功能：将复杂规划分解为具体的视觉-语言子问题
- 核心思路：(1) 探索引导 (EG)：根据常识推理预测目标物体最可能的探索方向；(2) 物体定位 (OG)：开放词汇目标检测，判断目标是否在视野中；(3) 场景描述 (SD)：生成目标物体状态的文本描述；(4) 动作解码 (AD)：将导航/操控指令翻译为原子动作序列；(5) 经验总结 (ES)：总结最近动作的执行结果，分析失败原因。其中 AD 产生动作但无文本反馈，其余 4 种产生文本反馈但不生成动作。
- 设计动机：每种能力对应 VLM 本身擅长的基本视觉-语言任务（空间推理、检测、描述、指令跟随、总结），通过结构化调用充分发挥 VLM 的内在能力，同时支持对每个能力施加精细监督。
三阶段训练流水线:
- 功能：逐步提升模型从基础能力到复杂推理的表现
- 核心思路：Stage 1 (SFT-Expert)：在专家轨迹上进行监督微调，利用模拟器内部信息（场景图谱、分割掩码、环境消息）为每种能力构建训练标签，生成 640k 样本。Stage 2 (DAgger-SFT)：部署阶段 1 模型采集自生成轨迹，利用语义匹配将模型的能力调用与 ground-truth 对齐，构建纠正性训练标签（690k 样本），加入物体描述和动作格式增强。Stage 3 (RFT)：用专家引导策略优化算法 (EIPO) 对调度器进行强化微调，以能力调用完成操纵子计划为奖励，合成多样化交互数据（25k 轨迹）。
- 设计动机：SFT 让模型掌握基本格式和技能，DAgger 修正分布偏移，RFT 提升调度器在多样场景下的泛化能力。
专家引导策略优化 (EIPO):
- 功能：更稳定的调度器强化学习训练
- 核心思路：不同于 PPO/GRPO 优化策略回报改进量，EIPO 直接最大化专家的优势函数 \(A_{\pi^*}(s,a)\)。由于专家策略是确定性的，\(A_{\pi^*}\) 可以精确计算而无需蒙特卡洛估计。使用 GRPO 风格的组基均值作为基线，将"组内相对更好"的动作赋予正梯度，"更差"的动作赋予负梯度。目标函数为 \(J(\pi) = \mathbb{E}_{s \sim D} \frac{1}{G} \sum_{i=1}^{G} [r(a^i, s) \hat{A}_{\pi^*}(s, a^i)]\)。
- 设计动机：利用专家的最优性保证 \(A_{\pi^*}(s,a) \leq 0\)，所有次优动作天然被抑制。相比 GRPO 使用 episode 级别回报，EIPO 使用步级别优势函数，收敛更快更稳定。

损失函数 / 训练策略¶

Stage 1-2 使用标准交叉熵损失进行 SFT。Stage 3 使用 EIPO 算法，学习率 5e-6，batch size 512，120 次策略更新迭代。整体在 4 卡 H800 上训练。基模型 Qwen2.5-VL-3B，Stage 1 学习率 1e-5，batch size 32，2 epochs。

实验关键数据¶

主实验¶

基准	方法	基模型	平均 SR
EB-ALFRED	Claude-3.7-Sonnet (zero-shot)	-	67.7
EB-ALFRED	WAP	Qwen2.5-VL-7B	62.7
EB-ALFRED	RoboAgent	Qwen2.5-VL-3B	67.0
ALFWorld (视觉)	SEEA-R1	Qwen2.5-VL-7B	36.0
ALFWorld (视觉)	RoboAgent	Qwen2.5-VL-3B	77.6
ALFWorld (文本)	DynaMind	Qwen2.5-7B	92.5/89.1
ALFWorld (文本)	RoboAgent	Qwen2.5-VL-3B	92.1/94.0

在 ALFWorld 视觉环境中，RoboAgent 以 77.6% SR 大幅超越所有现有 RL 方法（次优 SEEA-R1 仅 36.0%），提升幅度达 41.6 个百分点。

消融实验¶

训练配置	ALFWorld SR	EB-ALFRED SR	说明
SFT-expert	44.8	62.0	仅专家轨迹 SFT
+DAgger (aug. gen.)	73.1	64.3	加模型生成数据的 DAgger
+RFT (aug. exp.)	74.6	65.7	加增强专家数据 RFT
+RFT (aug. syn.)	77.6	67.0	完整模型，加合成数据 RFT

关键发现¶

DAgger 阶段贡献最大：ALFWorld 上从 44.8→73.1（+28.3），说明模型自采集轨迹的纠正性监督对弥补分布偏移至关重要。
EIPO 比 GRPO 收敛更快：在相同迭代次数下，EIPO 相比 GRPO 达到更高的 ALFWorld SR，验证了步级优势函数的稳定性优势。
跨模态泛化：同一个视觉模型直接适配文本环境，达到 92.1/94.0 (seen/unseen)，接近专为文本设计的方法，说明能力框架获得了模态无关的规划能力。
OOD 泛化：在 EB-Habitat (22.3) 和 LoTa-WAH (22.1) 上优于其他开源迁移模型，但与闭源 GPT-4o (59.0) 仍有差距。

亮点与洞察¶

"能力即接口"的设计理念极具启发性：不同于自由格式 CoT，结构化的能力调用让中间推理可监督、可诊断、可替换，是 VLM agent 设计的一个重要范式。
利用模拟器特权信息构建训练数据：训练时利用场景图谱、分割掩码等推理时不可见的信息为能力构建高质量标签，是一个巧妙的知识蒸馏策略。
单模型多角色：调度器和所有能力共享一个 3B VLM，无需外部工具或多模型协作，大幅降低了部署复杂度。这一设计可迁移到其他多工具 agent 系统中。
EIPO 算法可推广：利用专家策略的确定性来获得精确优势估计，适用于任何有可靠专家策略的 RL 场景。

局限与展望¶

仅在 AI2-THOR/ALFRED 模拟器上训练，真实世界泛化能力未验证
5 种能力是预定义的，无法动态扩展新能力或根据任务自适应选择
OOD 结果显示跨模拟器泛化仍有明显差距（vs GPT-4o 零样本差 ~37 个百分点）
3B 模型在复杂推理场景下可能受限，更大模型可能进一步提升
可以考虑引入能力的自我发现和组合机制，而非固定 5 种

评分¶

新颖性: ⭐⭐⭐⭐ 能力驱动规划框架设计新颖，EIPO 算法有理论贡献，但能力定义仍较手工
实验充分度: ⭐⭐⭐⭐⭐ 4 个基准（2 in-domain + 2 OOD）、3 种模态（视觉/文本/OOD）、完整阶段消融、EIPO vs GRPO 对比
写作质量: ⭐⭐⭐⭐ 框架描述清晰，训练流水线图示直观，但公式推导部分较密集
价值: ⭐⭐⭐⭐⭐ 为 VLM 具身 agent 提供了一个可复制、可扩展的范式，77.6% ALFWorld SR 是目前最强结果