AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making¶

会议: NeurIPS 2025
arXiv: 2506.12374
代码: 未提及
领域: 多模态VLM / 机器人
关键词: VLM, robotic manipulation, grounding, zero-shot, trajectory synthesis, visual question answering

一句话总结¶

提出 AntiGrounding，逆转传统指令 grounding 过程——不是将语言映射到动作空间，而是将候选机器人动作"提升"到 VLM 表示空间（通过多视角轨迹渲染 + 结构化 VQA），实现零样本闭环机器人轨迹合成。

背景与动机¶

VLM 在高维表示空间中编码了丰富的知识和推理能力，但现有机器人方法将 VLM 输出投影到低维中间表示（如动作坐标），丢失了fine-grained 的空间和语义细节。

核心洞察：与其让 VLM "grounding"到动作空间（损失信息），不如将动作空间"lift"到 VLM 的表示空间——让 VLM 在其擅长的 visual-language 空间中评估候选动作。

核心问题¶

如何充分利用 VLM 的表示空间进行机器人决策，避免将丰富的 VLM 知识压缩到低维动作表示？

方法详解¶

整体框架¶

生成多个候选机器人动作/轨迹
将每个候选轨迹从多个视角渲染为图像序列
VLM 通过结构化 VQA（针对指令提问"这个轨迹是否正确执行了 XX 任务？"）评分
选择得分最高的轨迹执行
离线政策细化：利用过去经验提升长期性能

关键设计¶

Lift 而非 Ground: 传统方法 VLM → 动作（降维），本方法动作 → VLM（升维）。每个候选动作被渲染为可视化图像，回到 VLM 理解的视觉空间。
多视角轨迹渲染: 从不同视角渲染候选轨迹的可视化效果，提供空间理解的多角度信息，帮助 VLM 判断轨迹是否合理。
结构化 VQA: 设计针对任务指令的结构化问题（而非开放式问答），VLM 对每个候选轨迹进行二元或评分判断。
离线政策细化: 积累执行经验，优化候选生成和评分策略，提升长期任务完成率。

训练策略¶

零样本框架——VLM 不需要微调。候选动作生成可使用任何运动规划器或采样方法。

实验关键数据¶

在仿真和真实世界环境中均超越基线方法，覆盖多种机器人操作任务。零样本泛化到新任务无需额外训练。

亮点¶

"AntiGrounding"概念命名精准——逆转 grounding 方向是核心直觉
零样本能力突出——不需要任何机器人操作的训练数据
闭环轨迹合成——可以根据执行反馈修正轨迹
离线政策细化使系统随使用而改善

局限性 / 可改进方向¶

多视角渲染 + VQA 评分需要多次调用 VLM，推理延迟高
候选轨迹质量依赖于运动规划器
真实世界实验规模有限
VLM 的空间推理能力仍是瓶颈

与相关工作的对比¶

vs SayCan: SayCan 用 LLM 规划子任务 → 执行器执行;AntiGrounding 让 VLM 直接在视觉空间判断轨迹可行性
vs RT-2: RT-2 端到端训练 VLA 模型；AntiGrounding 零样本，不需要大规模机器人数据
vs COS3D（同批次笔记）: COS3D 用 VLM 做 3D 分割指导抓取；AntiGrounding 用 VLM 直接评估轨迹

启发与关联¶

"Lift to VLM space"的思路可用于自动驾驶——渲染候选行驶路线让 VLM 评估安全性
可与 COS3D 的 3D 分割结合——先用 COS3D 定位目标，再用 AntiGrounding 规划抓取轨迹
离线政策细化模块可用于任何 VLM-based 决策系统的持续改进

评分¶

新颖性: ⭐⭐⭐⭐⭐ "逆向 grounding"的概念原创且直觉性强
实验充分度: ⭐⭐⭐ 仿真+真实世界但规模有限
写作质量: ⭐⭐⭐⭐ 概念清晰，动机有说服力
价值: ⭐⭐⭐⭐ 零样本机器人操作的新范式，实际应用前景好