跳转至

AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making

会议: NeurIPS 2025
arXiv: 2506.12374
代码: 未提及
领域: 多模态VLM / 机器人
关键词: VLM, robotic manipulation, grounding, zero-shot, trajectory synthesis, visual question answering

一句话总结

提出 AntiGrounding,逆转传统指令 grounding 过程——不是将语言映射到动作空间,而是将候选机器人动作"提升"到 VLM 表示空间(通过多视角轨迹渲染 + 结构化 VQA),实现零样本闭环机器人轨迹合成。

背景与动机

VLM 在高维表示空间中编码了丰富的知识和推理能力,但现有机器人方法将 VLM 输出投影到低维中间表示(如动作坐标),丢失了fine-grained 的空间和语义细节。

核心洞察:与其让 VLM "grounding"到动作空间(损失信息),不如将动作空间"lift"到 VLM 的表示空间——让 VLM 在其擅长的 visual-language 空间中评估候选动作。

核心问题

如何充分利用 VLM 的表示空间进行机器人决策,避免将丰富的 VLM 知识压缩到低维动作表示

方法详解

整体框架

  1. 生成多个候选机器人动作/轨迹
  2. 将每个候选轨迹从多个视角渲染为图像序列
  3. VLM 通过结构化 VQA(针对指令提问"这个轨迹是否正确执行了 XX 任务?")评分
  4. 选择得分最高的轨迹执行
  5. 离线政策细化:利用过去经验提升长期性能

关键设计

  1. Lift 而非 Ground: 传统方法 VLM → 动作(降维),本方法 动作 → VLM(升维)。每个候选动作被渲染为可视化图像,回到 VLM 理解的视觉空间。

  2. 多视角轨迹渲染: 从不同视角渲染候选轨迹的可视化效果,提供空间理解的多角度信息,帮助 VLM 判断轨迹是否合理。

  3. 结构化 VQA: 设计针对任务指令的结构化问题(而非开放式问答),VLM 对每个候选轨迹进行二元或评分判断。

  4. 离线政策细化: 积累执行经验,优化候选生成和评分策略,提升长期任务完成率。

训练策略

零样本框架——VLM 不需要微调。候选动作生成可使用任何运动规划器或采样方法。

实验关键数据

在仿真和真实世界环境中均超越基线方法,覆盖多种机器人操作任务。零样本泛化到新任务无需额外训练。

亮点

  • "AntiGrounding"概念命名精准——逆转 grounding 方向是核心直觉
  • 零样本能力突出——不需要任何机器人操作的训练数据
  • 闭环轨迹合成——可以根据执行反馈修正轨迹
  • 离线政策细化使系统随使用而改善

局限性 / 可改进方向

  • 多视角渲染 + VQA 评分需要多次调用 VLM,推理延迟高
  • 候选轨迹质量依赖于运动规划器
  • 真实世界实验规模有限
  • VLM 的空间推理能力仍是瓶颈

与相关工作的对比

  • vs SayCan: SayCan 用 LLM 规划子任务 → 执行器执行;AntiGrounding 让 VLM 直接在视觉空间判断轨迹可行性
  • vs RT-2: RT-2 端到端训练 VLA 模型;AntiGrounding 零样本,不需要大规模机器人数据
  • vs COS3D(同批次笔记): COS3D 用 VLM 做 3D 分割指导抓取;AntiGrounding 用 VLM 直接评估轨迹

启发与关联

  • "Lift to VLM space"的思路可用于自动驾驶——渲染候选行驶路线让 VLM 评估安全性
  • 可与 COS3D 的 3D 分割结合——先用 COS3D 定位目标,再用 AntiGrounding 规划抓取轨迹
  • 离线政策细化模块可用于任何 VLM-based 决策系统的持续改进

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "逆向 grounding"的概念原创且直觉性强
  • 实验充分度: ⭐⭐⭐ 仿真+真实世界但规模有限
  • 写作质量: ⭐⭐⭐⭐ 概念清晰,动机有说服力
  • 价值: ⭐⭐⭐⭐ 零样本机器人操作的新范式,实际应用前景好