OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning¶

会议: ICLR 2026
arXiv: 2509.09332
代码: 项目页面
领域: 具身智能/3D推理
关键词: MLLM, 任务自适应3D接地, 门控路由, 具身感知推理, GRPO

一句话总结¶

提出OmniEVA——通过任务自适应门控路由器动态注入3D位置编码(仅在需要时启用几何推理)和具身感知推理框架(将物理约束融入规划循环),解决了空间MLLM的两大gap：几何适应性差(2D-only或硬编码3D)和具身约束缺失(理论可行但实际不可执行的计划),在8个基准中7个达到SOTA。

研究背景与动机¶

领域现状¶

领域现状：领域现状**：MLLM用于具身智能→空间理解+推理+行动。两条路线：(1) 2D RGB直接输入→缺3D信息; (2) 3D-LLM硬编码3D注入→不灵活。

现有痛点：

现有痛点¶

现有痛点：(1) 几何适应性gap：2D-only模型在3D推理任务(堆叠/遮挡处理/导航)失败; 3D-LLM硬编码注入→3D输入嘈杂或不必要时反而引入噪声

核心矛盾¶

核心矛盾：(2) 具身约束gap：网络图像/视频训练的模型忽略机器人物理约束→计划理论可行但物理无法执行(抓取位/工作空间/运动学)

切入角度：(1) 门控路由器动态决定是否需要3D → 按需注入; (2) TE-GRPO训练让模型学习尊重物理约束。

方法详解¶

任务自适应门控路由器(TAGR)¶

3D位置编码：深度图→世界坐标→patch级平均→正弦编码→\(V^p \in \mathbb{R}^{N \times H_p \times W_p \times d_v}\)
门控决策：
- 任务条件：句子Transformer编码指令→\(V^T\)
- 场景条件：视觉编码器输出均值池化→\(V_{avg}^I\)
- 拼接→MLP→2维gate logits→Gumbel-Softmax→二值决策
动态注入：
- Gate=1: \(V^{final} = V^I + V^p\) (加3D位置编码)
- Gate=0: \(V^{final} = V^I\) (纯2D)
- 不同任务/场景自动选择→避免无用3D的噪声

具身感知推理¶

原始技能分解：
- Where2Go: 导航目标选择
- Where2Grasp: 抓取位估计
- Where2Approach: 接近位姿
- Where2Fit: 放置适配性
TE-GRPO (Task- and Embodiment-aware GRPO)：
- 后训练阶段用GRPO(Group Relative Policy Optimization)
- 奖励考虑：任务目标 + 物体可供性 + 工作空间边界 + 运动学可行性
- 确保生成的计划可执行

两阶段训练¶

Stage 1: 监督微调(SFT)→2D+3D VQA+具身推理数据
Stage 2: TE-GRPO后训练→强化学习优化可执行性

实验关键数据¶

8个基准(2D + 3D + 视频)¶

主实验¶

基准类型	模型	性能
2D空间推理	OmniEVA	SOTA
3D空间推理	OmniEVA	SOTA (7/8)
目标导航(HM3D)	OmniEVA	排行榜第一
目标导航(MP3D)	OmniEVA	排行榜第一

4个原始技能基准¶

消融实验¶

技能	OmniEVA vs SOTA	说明
Where2Go	+5%	导航目标选择
Where2Grasp	+8%	抓取位估计
Where2Approach	+6%	接近策略
Where2Fit	+7%	放置适配

关键发现¶

门控路由器在~40%任务上选择关闭3D→这些任务确实不需要3D→验证了自适应策略
硬编码3D in baseline模型→在不需要3D的2D任务上反而降低性能→证明了TAGR的价值
TE-GRPO后训练比纯SFT→可执行计划比例从~65%→~90%

亮点与洞察¶

"按需3D"的设计哲学：不是"给所有任务都加3D"→而是让模型自己学习何时需要→这比人工规则更灵活更准确。
原始技能基准的贡献：4个新基准(Where2Go/Grasp/Approach/Fit)→首次系统评估具身计划的可执行性。
TE-GRPO连接了LLM训练和机器人学：将GRPO(LLM后训练主流方法)与物理约束奖励结合→是LLM-for-robotics的自然且有效的融合方式。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 任务自适应3D+具身感知推理的双重创新
实验充分度: ⭐⭐⭐⭐⭐ 8+4基准+消融+排行榜
写作质量: ⭐⭐⭐⭐ 架构描述清晰
价值: ⭐⭐⭐⭐⭐ 对具身MLLM有重要推动