跳转至

Affordance-Guided Coarse-to-Fine Exploration for Base Placement in Open-Vocabulary Mobile Manipulation

会议: AAAI 2026
arXiv: 2511.06240
代码: 无
领域: 机器人操作 / 移动操控 / 具身智能
关键词: 开放词汇移动操控, 基座放置, affordance推理, VLM视觉提示, 粗到细优化

一句话总结

针对开放词汇移动操控中机器人基座选位问题,提出一种零样本框架,通过构建跨模态表征(Affordance RGB + Obstacle Map+)将语义affordance线索投射到障碍物地图上,再用粗到细迭代优化平衡语义和几何约束,在5个操控任务上达到85%成功率,大幅超越几何规划器和纯VLM方法。

背景与动机

开放词汇移动操控(OVMM)要求机器人根据自然语言指令在未见过的场景中找到目标物体并执行操作。现有方法通常在导航阶段只关注"走到物体附近",用A或RRT等经典规划器找一个离目标足够近的无碰撞位置,然后就直接尝试操控。这种做法忽略了一个关键问题:靠近不等于能操作。例如,要打开橱柜必须面朝抽屉方向,抓壶把手必须对准把手侧,放杯子上架子需要面朝开口。如果基座位置选得不对,即便距离很近,操控臂也可能因朝向、可达性等原因无法完成任务。

另一方面,基于VLM的方法虽能理解任务语义("哪边是把手"),但只依赖单张RGB图做推理,视野有限,无法感知被遮挡的区域,也缺乏对碰撞和可达性的几何约束。因此语义方法和几何方法各有短板,需要一种能同时考虑两者的方案。

核心问题

如何为移动操控机器人选择一个既满足任务语义(面朝正确的affordance方向)又满足几何可行性(无碰撞、可达、合适距离)的基座放置位置? 这个问题的难点在于:(1) 需要联合推理语义意图和空间约束;(2) 机器人的感知视野有限(自中心视角),可能看不到最合适的位置方向。

方法详解

整体框架

系统接收自然语言指令(如"把杯子放到架子上"),由GPT-4解析为子指令序列。每个子指令包含目标物体名称和操作描述。执行流程分三个阶段:

  1. 粗导航:用A*规划器将机器人导航到目标物体1.5米范围内,面朝物体
  2. 基座放置选择(本文重点):在粗导航位置附近,通过affordance引导的粗到细优化,选出最优的精确基座位置
  3. 操控执行:在选定位置用预定义的操控原语(pick/place/open)执行任务

方法核心分两大模块:Affordance Guidance Projection(跨模态投射) + Affordance-Driven Coarse-to-Fine Optimization(粗到细优化)

关键设计

  1. Affordance Guidance Projection(跨模态表征构建):这是整个方法最关键的设计——将RGB图像中的语义affordance信息"投射"到2D障碍物地图上,克服VLM只能在RGB上推理的局限。具体构建两个互补表征:
  2. Affordance RGB(\(I_{aff}\):在RGB图上叠加12个方向箭头(30°间隔,不同颜色),再标记一个"A"箭头表示VLM推荐的粗affordance方向
  3. Obstacle Map+(\(M_{local}^+\):在俯视障碍物地图上叠加目标物体轮廓\(\mathcal{R}_t\)、机器人当前位置、以"A"方向为中心±60°的扇形affordance区域\(\mathcal{F}_t\),以及12个方向箭头(颜色与RGB中一致)

两个表征通过颜色一致性实现跨模态对齐——VLM可以将RGB中看到的方向箭头与地图上的空间位置关联起来,从而实现超越自中心视角的全局语义推理。affordance方向通过向VLM提问3次并多数投票确定,确保鲁棒性。

  1. Affordance Point Selection(affordance关键点选择):用DINOv2提取目标物体区域的视觉特征,k-means聚类(k=20,余弦相似度)生成候选关键点,经空间去重后在RGB上标注并提交VLM选择与任务最相关的关键点\(\mathbf{g}\)(如壶把手、柜门拉手)。这个点作为后续高斯采样的中心。

  2. Coarse-to-Fine Iterative Optimization(粗到细迭代优化):在\(\mathbf{g}\)周围迭代采样候选基座位置,通过动态加权的复合评分平衡语义和几何:

  3. 评分:每个候选\(x\)得分 \(w(x) = w_{geo}(x)^{\alpha_t} \cdot w_{sem}(x)^{1-\alpha_t}\),其中几何项鼓励距离\(\mathbf{g}\)保持在首选半径\(r^*\)附近,语义项鼓励靠近由VLM更新的语义中心\(\mu_t\)
  4. 采样:按归一化权重采样\(N_{sample}\)个候选点,将它们投射到\(M_{local}^+\)上标注索引,连同\(I_{aff}\)和子指令一起提交VLM做语义排序
  5. 精化:VLM返回top-k语义最佳点,更新语义中心\(\mu_t\)并缩小\(\sigma_s\)促进收敛;最后一轮取top-5去掉2个离群值,剩余3个均值作为最终基座位置

核心trick是\(\alpha_t\)用sigmoid调度:早期\(\alpha_t\)小(偏重语义探索),后期\(\alpha_t\)大(偏重几何精度),实现从粗到细的平滑过渡,避免陷入局部最优。

损失函数 / 训练策略

本方法是零样本推理框架,无需训练。不存在损失函数和训练过程。所有决策都由VLM(GPT-4o)在推理时完成。关键超参数包括:

  • 采样标准差\(\sigma_{sample}\)和截断半径\(r_{max}\)
  • 首选距离\(r^* = 0.7\)m
  • 碰撞安全距离\(\geq 0.4\)m
  • sigmoid调度参数\(\alpha_{max}\)\(\gamma\)、迭代总步数\(T\)
  • VLM投票次数3次(多数投票机制)

实验关键数据

任务 本文 Obj Center+A* Obj Center+RRT* Aff Point+A* Aff Point+RRT* Pivot(I) Pivot(M+,Iaff)
扔罐子进垃圾桶 17/20 20/20 19/20 16/20 18/20 0/20 2/20
移壶到红杯旁 18/20 9/20 8/20 10/20 10/20 2/20 3/20
放杯子上架 17/20 8/20 3/20 13/20 10/20 1/20 2/20
打开橱柜 16/20 5/20 10/20 10/20 11/20 17/20 10/20
打开洗碗机 17/20 5/20 10/20 9/20 12/20 6/20 6/20
总成功率 85% 47% 50% 58% 61% 26% 23%

实验在NVIDIA Isaac Sim中用TIAGo++机器人平台进行,7-DOF左臂+差速底盘,头部RGB-D相机(1280×720),每个任务20次随机初始化。

消融实验要点

  • \(\alpha\)调度是核心贡献:固定\(\alpha=0\)(纯语义)仅43%,\(\alpha=0.5\)(平衡)76%,\(\alpha=1\)(纯几何)79%,动态增长\(\alpha_t\)达85%。从粗到细的过渡比任何固定权重都好
  • 跨模态投射模块不可或缺:去掉所有投射(只用原始RGB+地图)成功率从85%暴跌到48%;去掉方向"A"箭头从85%降到62%;去掉12个辅助方向箭头仅小幅下降到80%。说明"A"箭头携带的粗affordance方向信息最关键
  • 纯VLM方法(Pivot)表现极差(23-26%),说明当前VLM虽有强语义能力但缺乏将语义转化为空间推理的能力,需要显式投射机制辅助

亮点

  • 跨模态投射设计非常巧妙:不是让VLM直接在地图上推理(VLM做不好),而是用颜色一致的箭头在RGB和地图之间建立视觉锚点,让VLM可以利用其擅长的RGB理解能力来间接完成空间推理,这个思路可迁移到其他需要VLM做空间决策的场景
  • 粗到细的sigmoid调度简洁有效:一个参数\(\alpha_t\)就实现了从语义探索到几何精化的平滑过渡,避免了两个目标冲突时的两难选择
  • 零样本、跨任务泛化:不需要任何任务相关训练或微调,仅靠VLM的零样本推理就能处理pick-and-place和articulation两大类任务
  • 实验中发现的insight有价值:VLM无法自动将语义理解转化为空间推理,必须依赖显式的投射机制——这对后续VLM在机器人中的应用有通用启示

局限性 / 可改进方向

  • 仅仿真验证:所有实验在Isaac Sim中完成,没有真实物理机器人实验,sim-to-real gap未探讨
  • 目标位置假设已知:系统假设目标物体的2D位置由模拟器直接提供,回避了开放世界中的目标检测和定位问题
  • 几何精度有限:与纯几何方法相比,VLM引导的放置在需要精确距离估计的任务上可能不够准确
  • 忽略手臂运动可行性:只优化底盘位置,没考虑操控臂到目标位置的完整运动轨迹是否无碰撞,在狭窄环境中可能仍然失败
  • VLM推理效率:每次迭代都要调用GPT-4o做排序,多轮迭代的延迟和cost较高,不适合实时部署
  • 改进方向:加入臂轨迹可行性检查、扩展到真实机器人、结合主动感知减少VLM调用次数

与相关工作的对比

  • vs. OK-Robot / COME-robot:这些OVMM系统关注全流程(感知+规划+执行),但在基座选位上仍用简单的距离启发式,等于把最后一步("停在哪")交给了通用规划器。本文专注解决这个"最后一步"问题
  • vs. MoMa-Pos / MoMa-Kitchen:MoMa-Pos需要对每类物体建模,泛化性差;MoMa-Kitchen用自中心视角的affordance预测,受限于视野。本文通过跨模态投射突破了视野限制,且零样本无需物体级建模
  • vs. PIVOT:PIVOT用VLM迭代标注RGB做空间推理,但缺乏几何约束,在本文实验中表现极差(26%)。即使给PIVOT加上本文的跨模态输入(Pivot(M+, Iaff)),性能仍只有23%,说明仅靠VLM的迭代选择不够,必须有几何优化配合

启发与关联

  • 跨模态投射的思路(用颜色一致的视觉锚点桥接RGB和空间地图)可以广泛应用于其他需要VLM做空间决策的场景,如室内导航、物体放置规划、场景重排等
  • 粗到细的动态权重调度策略(sigmoid schedule在两个可能冲突的目标间平滑过渡)是一种通用的优化范式,可迁移到其他多目标优化问题
  • 论文揭示了当前VLM的一个重要局限:语义理解强但空间推理弱,这为后续VLM改进(加入空间推理能力)或设计更好的VLM-robot接口提供了方向

评分

  • 新颖性: ⭐⭐⭐⭐ 跨模态投射和粗到细调度的组合是新颖的,但各个组件(VLM提示、高斯采样、CEM优化)都是已有技术
  • 实验充分度: ⭐⭐⭐ 5个任务×20次随机化的规模适中,消融实验设计合理,但仅限仿真、无真机实验
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,问题定义精确,方法描述详细,图表配合良好
  • 价值: ⭐⭐⭐⭐ 指出了OVMM中被忽视的关键问题(基座选位),提供了实用的零样本解决方案,对VLM在机器人中应用有通用启示