RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation¶

会议: ICLR 2026
arXiv: 2602.09973
代码: GitHub
领域: 机器人学习 / 数据集
关键词: 中间表示, VLA, 操作数据集, 具身VQA, plan-then-execute

一句话总结¶

提出 RoboInter 操作套件——统一的中间表示数据/基准/模型资源：RoboInter-Tool（半自动标注 GUI）+ RoboInter-Data（23 万 episode × 571 场景 × 10+ 类中间表示的密集逐帧标注）+ RoboInter-VQA（29 类具身 VQA 基准）+ RoboInter-VLA（支持模块化和端到端的 plan-then-execute 框架），为通过中间表示提升 VLA 泛化提供完整基础设施。

研究背景与动机¶

领域现状：VLA（Vision-Language-Action）系统将大规模预训练 VLM 与机器人操作相结合，但现有操作数据集存在成本高、embodiment 特异、覆盖不足等问题。Plan-then-execute 范式（先生成高层规划再翻译为低层动作）已被验证是提升泛化的有效思路，但其核心依赖中间表示（subtask、trace、grounding 等）的监督信号。

现有痛点：

现有数据集几乎不提供密集的中间表示标注 → 限制 plan-then-execute 方法的发展
已有标注工作要么规模小（ShareRobot 仅 51k），要么标注类型单一（LLARVA 只有 trace），要么依赖自动标注质量不可控（ECoT）
缺乏系统评估 VLM 在具身场景中空间/时序推理能力的基准
模块化 vs 端到端 VLA 的对比缺乏统一框架和数据支撑

核心矛盾：plan-then-execute 范式的潜力已被验证，但缺乏大规模、高质量、多类型的中间表示标注数据来真正释放这一潜力。

本文方案：构建完整的中间表示生态系统——从标注工具（RoboInter-Tool）到数据（RoboInter-Data）到基准（RoboInter-VQA）到模型框架（RoboInter-VLA），一站式解决数据、评估和方法三大瓶颈。

方法详解¶

整体框架¶

RoboInter 操作套件由四大组件构成：

RoboInter-Tool：基于 PyQt5 的轻量级 GUI，支持半自动逐帧标注，集成 SAM2 进行物体分割跟踪
RoboInter-Data：23 万+ episode、571 场景、10+ 类中间表示的密集逐帧标注数据
RoboInter-VQA：9 类空间 + 20 类时序的具身 VQA 基准和数据集
RoboInter-VLA：VLM Planner + Executor 的 plan-then-execute 框架，支持三种变体

关键设计一：多层次中间表示标注体系¶

数据标注覆盖三个层次：

任务层：任务分解为子任务 → 15 种预定义原始技能（Pick, Place, Push, Pull 等）→ 片段级和视频级语言标注
物体层：通过 SAM2 + 人工审查 → 6100 万帧物体 grounding 标注、19 万 affordance box 和 placement proposal
执行层：末端执行器 2D 轨迹（7000 万帧 trace 标注）、接触点、6D 抓取位姿、夹爪 bounding box

所有标注在时间上与动作、状态、第三视角和腕部视角观测严格对齐。

关键设计二：F-CoT 灵活思维链桥接规划与执行¶

引入 Flexible Chain-of-Thought（F-CoT），由多种中间表示组合而成：

作为 VQA 监督信号训练 Planner
作为动作对齐的指导信号输入 Executor
支持文本形式（Te-Modular）和视觉提示形式（Im-Modular）
用户可按任务需求灵活选择子集（subtask + trace、affordance + skill 等）

关键设计三：三种 Plan-then-Execute VLA 变体¶

变体	架构特点	中间表示使用方式
IC-E2E	VLM 直接作为 Executor 的特征提取器	隐式（通过预训练权重）
EC-E2E	VLM 同时生成中间表示和动作	显式（联合优化 CoT + action）
Modular	Planner 和 Executor 分离	显式（Planner 输出 → Executor 条件）

Executor 采用 Qwen2.5-VL backbone + DiT action head + 信息聚合器（将所有 token 隐藏状态压缩为可控长度的条件特征）。

实验与结果¶

主实验：第三方基准上的 VLM 能力评估¶

模型	Where2Place ↑	RoboRefIt ↑	RoboVQA ↑	RefCOCOg ↑
QwenVL2.5-7B	18.9%	75.8%	38.4	87.2%
RoboBrain-2.0-7B	63.6%	8.8%	31.6	62.9%
RoboInter-Qwen-7B	65.8%	85.6%	74.4	88.4%
RoboInter-LLaVAOV-7B	66.3%	89.3%	74.5	87.3%

RoboInter-VLM 在所有具身基准上大幅超越基线，同时保持通用能力稳定（TextVQA 83.0、MME 2281）。

Open-Loop 执行器评估¶

方法	OLS@0.1	OLS@0.05	OLS@0.01	mOLS
Vanilla	0.6793	0.3608	0.0189	0.3086
IC-E2E	0.6984	0.3810	0.0204	0.3218
EC-E2E	0.7049	0.3930	0.0314	0.3340
Te-Modular	0.7124	0.4133	0.0584	0.3543
Oracle+Executor	0.7511	0.4640	0.0587	0.3861

Te-Modular（文本 F-CoT + 模块化架构）取得学习方法中最佳结果，解耦规划和执行有利于各自专注优化。

消融实验：中间表示类型的贡献¶

中间表示组合	mOLS
Vanilla（无中间表示）	0.3086
+ Subtask	0.3146
+ Subtask + Primitive Skill	0.3159
+ ... + Object Box	0.3289
+ ... + Gripper Box	0.3391
+ ... + Affordance	0.3435
+ ... + Trace	0.3861

粗粒度表示（Subtask、Skill）贡献边际，空间精确的信号（Object Box、Affordance）贡献显著，Trace 提供了最大收益（密集时序信息直接约束动作生成）。

真实世界闭环评估¶

模型	ID 平均成功率	OOD 平均成功率	ID→OOD 下降
OpenVLA	45.0%	23.3%	21.7%
π₀	63.3%	45.0%	18.3%
Vanilla	65.0%	38.3%	26.7%
IC-E2E	77.3%	58.3%	19.0%
EC-E2E	68.3%	60.0%	8.3%

EC-E2E 在 OOD 上表现最优且下降最小（仅 8.3%），显式中间表示推理提供了更强的泛化鲁棒性。

论文评价¶

优点¶

系统性极强：从标注工具到数据到基准到模型框架，对中间表示的研究提供了"全家桶"式基础设施
规模可观：23 万 episode + 571 场景 + 6100 万帧 grounding 标注，远超现有工作
实验完整：open-loop / closed-loop / 跨平台 / SimplerEnv / 消融实验全覆盖
洞察深刻：系统验证了中间表示粒度、架构设计选择（模块化 vs E2E）对性能的影响

不足¶

VQA 数据来自模板 + 重组标注，多样性受限于标注模板的设计
真实世界实验仅在 4 个任务上评估，泛化到更复杂长序列任务的效果未知
模块化 Planner 推理延迟较高（~2.4s），实际部署需要异步推理等工程优化

评分¶

⭐⭐⭐⭐⭐

RoboInter 是机器人中间表示研究的里程碑式工作。它不仅提供了迄今为止最大规模的多类型中间表示数据集，还通过 VQA 基准和 VLA 框架的系统设计，为 plan-then-execute 范式的研究搭建了完整的实验平台。消融实验清晰揭示了 Trace > Affordance > Object Box > Subtask 的中间表示价值层级，这一洞察对未来的具身 AI 研究具有重要指导意义。