AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making¶
会议: NeurIPS 2025
arXiv: 2506.12374
代码: 未提及
领域: 多模态VLM / 机器人
关键词: VLM, robotic manipulation, grounding, zero-shot, trajectory synthesis, visual question answering
一句话总结¶
提出 AntiGrounding,逆转传统指令 grounding 过程——不是将语言映射到动作空间,而是将候选机器人动作"提升"到 VLM 表示空间(通过多视角轨迹渲染 + 结构化 VQA),实现零样本闭环机器人轨迹合成。
背景与动机¶
VLM 在高维表示空间中编码了丰富的知识和推理能力,但现有机器人方法将 VLM 输出投影到低维中间表示(如动作坐标),丢失了fine-grained 的空间和语义细节。
核心洞察:与其让 VLM "grounding"到动作空间(损失信息),不如将动作空间"lift"到 VLM 的表示空间——让 VLM 在其擅长的 visual-language 空间中评估候选动作。
核心问题¶
如何充分利用 VLM 的表示空间进行机器人决策,避免将丰富的 VLM 知识压缩到低维动作表示?
方法详解¶
整体框架¶
- 生成多个候选机器人动作/轨迹
- 将每个候选轨迹从多个视角渲染为图像序列
- VLM 通过结构化 VQA(针对指令提问"这个轨迹是否正确执行了 XX 任务?")评分
- 选择得分最高的轨迹执行
- 离线政策细化:利用过去经验提升长期性能
关键设计¶
-
Lift 而非 Ground: 传统方法 VLM → 动作(降维),本方法 动作 → VLM(升维)。每个候选动作被渲染为可视化图像,回到 VLM 理解的视觉空间。
-
多视角轨迹渲染: 从不同视角渲染候选轨迹的可视化效果,提供空间理解的多角度信息,帮助 VLM 判断轨迹是否合理。
-
结构化 VQA: 设计针对任务指令的结构化问题(而非开放式问答),VLM 对每个候选轨迹进行二元或评分判断。
-
离线政策细化: 积累执行经验,优化候选生成和评分策略,提升长期任务完成率。
训练策略¶
零样本框架——VLM 不需要微调。候选动作生成可使用任何运动规划器或采样方法。
实验关键数据¶
在仿真和真实世界环境中均超越基线方法,覆盖多种机器人操作任务。零样本泛化到新任务无需额外训练。
亮点¶
- "AntiGrounding"概念命名精准——逆转 grounding 方向是核心直觉
- 零样本能力突出——不需要任何机器人操作的训练数据
- 闭环轨迹合成——可以根据执行反馈修正轨迹
- 离线政策细化使系统随使用而改善
局限性 / 可改进方向¶
- 多视角渲染 + VQA 评分需要多次调用 VLM,推理延迟高
- 候选轨迹质量依赖于运动规划器
- 真实世界实验规模有限
- VLM 的空间推理能力仍是瓶颈
与相关工作的对比¶
- vs SayCan: SayCan 用 LLM 规划子任务 → 执行器执行;AntiGrounding 让 VLM 直接在视觉空间判断轨迹可行性
- vs RT-2: RT-2 端到端训练 VLA 模型;AntiGrounding 零样本,不需要大规模机器人数据
- vs COS3D(同批次笔记): COS3D 用 VLM 做 3D 分割指导抓取;AntiGrounding 用 VLM 直接评估轨迹
启发与关联¶
- "Lift to VLM space"的思路可用于自动驾驶——渲染候选行驶路线让 VLM 评估安全性
- 可与 COS3D 的 3D 分割结合——先用 COS3D 定位目标,再用 AntiGrounding 规划抓取轨迹
- 离线政策细化模块可用于任何 VLM-based 决策系统的持续改进
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "逆向 grounding"的概念原创且直觉性强
- 实验充分度: ⭐⭐⭐ 仿真+真实世界但规模有限
- 写作质量: ⭐⭐⭐⭐ 概念清晰,动机有说服力
- 价值: ⭐⭐⭐⭐ 零样本机器人操作的新范式,实际应用前景好