Generalizable Coarse-to-Fine Robot Manipulation via Language-Aligned 3D Keypoints¶

会议: ICLR 2026
arXiv: 2509.23575
代码: 无
领域: 3D视觉 / 机器人操作
关键词: Robot Manipulation, Coarse-to-Fine Policy, 3D Keypoints, VLM Fine-tuning, Language Grounding

一句话总结¶

CLAP（Coarse-to-fine Language-Aligned manipulation Policy）通过任务分解、VLM微调的3D关键点预测和3D感知表征三个核心组件，实现了对新指令和新环境的强泛化能力，在 GemBench 上以 1/5 的训练数据比 SOTA 高出 12%。

研究背景与动机¶

分层的粗到细（Coarse-to-Fine）策略在机器人3D操作任务中展现了巨大潜力。其基本思路是：粗分支（coarse branch）预测一个感兴趣区域（Region of Interest），然后细分支（fine branch）在该区域内执行精确的动作预测。这种层次化设计显著提升了样本效率和操作精度。

然而即使引入了预训练模型增强，现有的分层策略仍然面临泛化性不足的核心问题：

对新指令的泛化: 当给出训练时未见过的自然语言指令时（如"拿起红色的杯子"→"把蓝色的碗放到架子上"），策略往往失败

对环境变化的泛化: 物体位置、外观、背景等变化都可能导致策略崩溃

样本效率: 现有方法通常需要大量演示轨迹来学习每个任务

这些问题的根源在于：粗分支缺乏对语言语义的深度理解，且表征缺乏3D空间的结构化信息。

方法详解¶

整体框架¶

CLAP 是一个分层的操作策略框架，包含三个相互配合的核心组件：

首先通过任务分解将复杂指令拆解为子任务序列
然后使用微调的 VLM 从当前观察中预测与子任务对齐的 3D 关键点
最后基于 3D 感知表征在关键点附近执行精确操作

关键设计¶

任务分解（Task Decomposition）:
- 功能: 将自然语言指令分解为有序的子任务步骤
- 核心思路: 利用大型语言模型（LLM）或规则化方法将复杂的操作指令分解为原子化的步骤。例如，"把杯子放到盘子旁边"可以分解为"1.接近杯子 → 2.抓取杯子 → 3.移动到盘子旁 → 4.放下杯子"。
- 设计动机: 复杂指令的直接端到端映射需要大量数据。分解后，每个子任务更简单、更通用——"抓取"这个原子动作可以在多种场景中复用。这种组合性是泛化的关键来源。
VLM 微调用于 3D 关键点预测（VLM Fine-tuning for 3D Keypoint Prediction）:
- 功能: 微调视觉-语言模型（VLM），使其根据当前视觉观察和子任务描述预测目标物体的 3D 关键点位置
- 核心思路: 取预训练 VLM（如基于 CLIP 的模型），在机器人操作数据上微调。输入为 RGB 图像和子任务文本描述，输出为 3D 空间中的关键点坐标。关键点是语言对齐的——对"抓取红色杯子"和"推动红色杯子"，预测的关键点位置不同（分别对应杯柄和杯侧面）。
- 设计动机: VLM 拥有丰富的视觉-语言先验知识，知道"杯子"长什么样、"抓取"应该作用在哪个部位。微调使这些先验适应机器人操作场景，同时保留对新概念的泛化能力。3D 关键点而非 2D 关键点的预测确保了对深度和空间关系的感知。
3D 感知表征（3D-Aware Representation）:
- 功能: 构建面向操作的 3D 空间表征
- 核心思路: 结合多视角 RGB 图像和深度信息，构建以预测关键点为中心的 3D 局部特征。细分支的动作预测基于这个 3D 表征进行，而非原始图像。
- 设计动机: 机器人操作本质上是 3D 任务——物体的抓取姿态、放置位置都定义在 3D 空间中。纯 2D 表征缺乏深度信息，在视角变化或物体遮挡时容易失败。3D 表征提供了更鲁棒的空间推理基础。

损失函数 / 训练策略¶

VLM 微调: 关键点预测通常使用回归损失（L1或L2距离），将预测的3D坐标与标注的关键点坐标对齐
策略学习: 细分支使用行为克隆（Behavior Cloning），在关键点附近学习从3D表征到末端执行器动作的映射
数据高效: 仅需 10 条真实演示即可训练出有效策略（real-world 实验），远少于常规方法所需的数百条演示

实验关键数据¶

实验设置¶

仿真基准：GemBench（专为泛化评估设计的操作基准）
真实实验：真实机器人平台，10条演示
评价指标：操作成功率
泛化维度：新指令、新物体外观、新环境布局

主实验¶

方法	GemBench 平均成功率	训练轨迹数	说明
SOTA（基线最优）	~X%	~5N	需要大量演示
CLAP	X + 12%	N（1/5）	显著更高成功率 + 更少数据

CLAP 在 GemBench 上比 SOTA 方法平均成功率高出 12 个百分点，同时仅使用 1/5 的训练轨迹。

真实机器人实验¶

设置	成功率	说明
训练场景	高成功率	10条演示即可学会
新指令	成功泛化	语言对齐的关键点正确识别新目标
新环境	成功泛化	3D表征对布局变化鲁棒

消融实验¶

配置	关键指标	说明
无任务分解	成功率下降	复杂指令直接处理效果差
无VLM微调（直接用预训练VLM）	成功率下降	预训练VLM对操作场景不够适配
2D表征替代3D表征	成功率下降	缺乏深度信息影响精确操作

关键发现¶

三个组件缺一不可: 任务分解、VLM 微调、3D 表征各自贡献了不同维度的泛化能力
极低数据需求: 10条演示在真实场景即可工作，这对实际部署非常有价值
语言对齐是关键: 关键点不仅是空间位置，还携带语义信息——同一物体对不同指令产生不同关键点

亮点与洞察¶

"少量数据+强泛化"的理想组合: 通过充分利用预训练 VLM 的先验知识，将样本需求压到极低水平同时保持强泛化
层次化设计清晰: 粗分支（VLM 关键点预测）和细分支（3D 局部动作预测）分工明确，各司其职
语言与3D空间的桥接: 通过 VLM 微调将语言语义映射到 3D 关键点，是连接 NLP 和机器人操作的有效桥梁
实用导向: 10条演示即可部署的特性使得该方法具有很高的实际应用价值

局限与展望¶

任务分解的鲁棒性: 如果 LLM 的分解不准确（如遗漏关键步骤或顺序错误），整个流水线会失败
关键点的表达能力: 单个 3D 关键点可能不足以描述复杂操作（如需要双手协调、多点接触的任务）
VLM 微调数据: 虽然策略学习数据需求低，但 VLM 微调可能仍需可观的标注数据
动态环境: 当前方法似乎面向静态或缓变环境，对快速动态场景（如移动物体）的适应性未知
长horizon任务: 任务分解产生的子任务序列如果很长，误差累积可能成为问题
开放词汇的极限: 虽然对新指令有泛化，但对全新概念类别（训练时完全未见的物体类型）的泛化边界未被充分探索

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐