OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning¶
会议: ICLR 2026
arXiv: 2509.09332
代码: 项目页面
领域: 具身智能/3D推理
关键词: MLLM, 任务自适应3D接地, 门控路由, 具身感知推理, GRPO
一句话总结¶
提出OmniEVA——通过任务自适应门控路由器动态注入3D位置编码(仅在需要时启用几何推理)和具身感知推理框架(将物理约束融入规划循环),解决了空间MLLM的两大gap:几何适应性差(2D-only或硬编码3D)和具身约束缺失(理论可行但实际不可执行的计划),在8个基准中7个达到SOTA。
研究背景与动机¶
领域现状¶
领域现状:领域现状**:MLLM用于具身智能→空间理解+推理+行动。两条路线:(1) 2D RGB直接输入→缺3D信息; (2) 3D-LLM硬编码3D注入→不灵活。
现有痛点:
现有痛点¶
现有痛点:(1) 几何适应性gap:2D-only模型在3D推理任务(堆叠/遮挡处理/导航)失败; 3D-LLM硬编码注入→3D输入嘈杂或不必要时反而引入噪声
核心矛盾¶
核心矛盾:(2) 具身约束gap:网络图像/视频训练的模型忽略机器人物理约束→计划理论可行但物理无法执行(抓取位/工作空间/运动学)
切入角度:(1) 门控路由器动态决定是否需要3D → 按需注入; (2) TE-GRPO训练让模型学习尊重物理约束。
方法详解¶
任务自适应门控路由器(TAGR)¶
-
3D位置编码:深度图→世界坐标→patch级平均→正弦编码→\(V^p \in \mathbb{R}^{N \times H_p \times W_p \times d_v}\)
-
门控决策:
- 任务条件:句子Transformer编码指令→\(V^T\)
- 场景条件:视觉编码器输出均值池化→\(V_{avg}^I\)
- 拼接→MLP→2维gate logits→Gumbel-Softmax→二值决策
-
动态注入:
- Gate=1: \(V^{final} = V^I + V^p\) (加3D位置编码)
- Gate=0: \(V^{final} = V^I\) (纯2D)
- 不同任务/场景自动选择→避免无用3D的噪声
具身感知推理¶
-
原始技能分解:
- Where2Go: 导航目标选择
- Where2Grasp: 抓取位估计
- Where2Approach: 接近位姿
- Where2Fit: 放置适配性
-
TE-GRPO (Task- and Embodiment-aware GRPO):
- 后训练阶段用GRPO(Group Relative Policy Optimization)
- 奖励考虑:任务目标 + 物体可供性 + 工作空间边界 + 运动学可行性
- 确保生成的计划可执行
两阶段训练¶
- Stage 1: 监督微调(SFT)→2D+3D VQA+具身推理数据
- Stage 2: TE-GRPO后训练→强化学习优化可执行性
实验关键数据¶
8个基准(2D + 3D + 视频)¶
主实验¶
| 基准类型 | 模型 | 性能 |
|---|---|---|
| 2D空间推理 | OmniEVA | SOTA |
| 3D空间推理 | OmniEVA | SOTA (7/8) |
| 目标导航(HM3D) | OmniEVA | 排行榜第一 |
| 目标导航(MP3D) | OmniEVA | 排行榜第一 |
4个原始技能基准¶
消融实验¶
| 技能 | OmniEVA vs SOTA | 说明 |
|---|---|---|
| Where2Go | +5% | 导航目标选择 |
| Where2Grasp | +8% | 抓取位估计 |
| Where2Approach | +6% | 接近策略 |
| Where2Fit | +7% | 放置适配 |
关键发现¶
- 门控路由器在~40%任务上选择关闭3D→这些任务确实不需要3D→验证了自适应策略
- 硬编码3D in baseline模型→在不需要3D的2D任务上反而降低性能→证明了TAGR的价值
- TE-GRPO后训练比纯SFT→可执行计划比例从~65%→~90%
亮点与洞察¶
- "按需3D"的设计哲学:不是"给所有任务都加3D"→而是让模型自己学习何时需要→这比人工规则更灵活更准确。
- 原始技能基准的贡献:4个新基准(Where2Go/Grasp/Approach/Fit)→首次系统评估具身计划的可执行性。
- TE-GRPO连接了LLM训练和机器人学:将GRPO(LLM后训练主流方法)与物理约束奖励结合→是LLM-for-robotics的自然且有效的融合方式。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 任务自适应3D+具身感知推理的双重创新
- 实验充分度: ⭐⭐⭐⭐⭐ 8+4基准+消融+排行榜
- 写作质量: ⭐⭐⭐⭐ 架构描述清晰
- 价值: ⭐⭐⭐⭐⭐ 对具身MLLM有重要推动
相关论文¶
- [ACL 2026] SAMoRA: Semantic-Aware Mixture of LoRA Experts for Task-Adaptive Learning
- [ICLR 2026] REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Reasoning
- [ICLR 2026] RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling
- [AAAI 2026] OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
- [ICLR 2026] AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification