GRIM: Task-Oriented Grasping with Conditioning on Generative Examples¶
会议: AAAI 2026
arXiv: 2506.15607
代码: 项目主页
领域: 机器人
关键词: 任务导向抓取, 免训练, 视频生成模型, 语义对齐, 抓取迁移
一句话总结¶
本文提出 GRIM(Grasp Re-alignment via Iterative Matching),一种免训练的任务导向抓取(TOG)框架,通过 retrieve–align–transfer 流水线结合视频生成模型和多源记忆库,利用基于 DINO 特征的语义 3D 对齐实现跨物体的功能性抓取迁移,仅用 210 个记忆实例即超越了在 379K 样本上训练的 GraspMolmo。
研究背景与动机¶
从几何抓取到功能性抓取¶
传统抓取合成主要关注几何稳定性——"能不能拿起来"。但真正的操作智能在于选择功能合适的抓取方式——"为了完成任务 X,应该怎么拿"。例如锤子必须握住把手才能用来锤钉,而不是握锤头。这就是任务导向抓取(Task-Oriented Grasping, TOG)需要解决的问题。
数据瓶颈¶
TOG 的核心瓶颈是数据稀缺: - 监督学习方法(如 TaskGrasp, GraspGPT)依赖大规模手工标注的数据集,标注"哪些抓取适合哪些任务" - 知识图谱方法需要大量工程构建和维护 - 即使利用 LLM/VLM 的开放世界知识(如 GraspGPT, GraspMolmo),仍需在预定义的任务-抓取数据集上训练
GRIM 的核心思路¶
完全免训练!通过以下方式绕过数据瓶颈: 1. 从多种低成本来源(AI 生成视频、网络图片、人工示范)构建小型记忆库 2. 利用语义特征(而非几何形状)进行跨物体对齐 3. 将迁移的抓取姿态与几何稳定的候选抓取融合
方法详解¶
整体框架¶
GRIM 遵循 Retrieve → Align → Transfer 的三阶段流水线:
- Retrieve:查询记忆库找到最相关的先验经验(基于 DINO 视觉相似性 + CLIP 任务语义相似性)
- Align:将检索到的记忆物体与场景物体进行 3D 语义对齐
- Transfer & Refine:将任务抓取姿态迁移到场景物体,并与几何稳定的候选抓取融合
关键设计¶
1. 多源记忆构建流水线¶
每个记忆实例是一个四元组 \((F_M, G_t, T, O)\):特征网格、6D 任务抓取姿态、任务描述、物体名称。
记忆来源包括: - AI 生成视频:用 VLM(Gemini Pro)生成文本描述 → VGM(VEO2)生成视频 → 采样帧提取抓取。可大规模、低成本生成 - 网络图片:从网上爬取展示抓取动作的图片,用 VLM 生成任务描述 - 专家示范:机器人失败时,人提供单张示范图片,无缝加入记忆库
从图像/视频帧中提取抓取的方法:使用手-物体重建模型提取物体网格和手部网格 → 从手部网格推导 6D 平行钳式抓取姿态(利用拇指、食指中指质心和手掌质心确定夹持方向和接近方向)。
特征网格 \(F_M\) 的构建:在物体网格表面采样点并计算密集 DINOv2 特征向量,形成语义描述符场。
2. 基于联合相似度的记忆检索¶
给定场景物体的点云 DINO 特征 \(\bar{F}_{SO}^D\) 和任务 CLIP 嵌入 \(E_{T_S}\),检索分数为:
其中 \(\alpha=0.5\) 平衡视觉和任务语义相似性。这种设计允许系统在"看起来像"和"任务匹配"之间取得平衡。
3. 语义 3D 对齐(核心创新)¶
传统 ICP 仅基于几何进行对齐——当物体形状不同(如金属锅铲 vs 塑料锅铲)时会失败。GRIM 提出粗到精的语义导向对齐:
粗对齐: - 用 PCA 将 DINO 特征降至 4 维 - 在三个欧拉角各采样 8 步(\(8^3=512\) 个候选旋转) - 对每个候选旋转,计算联合特征-几何代价(\(w_f=100, w_g=10\),重度偏向语义特征) - 选择代价最低的 10 个候选
精对齐: - 用最佳粗对齐结果初始化标准 ICP 算法进行几何精炼 - 输出最终变换 \(T_{\text{final}}\)
设计动机:语义引导初始猜测 + 几何精炼 = 即使物体"语义相似但几何不同"也能鲁棒对齐。
4. 抓取迁移与精炼¶
迁移:\(G_S = T_{\text{final}} \cdot G_M\)
用 AnyGrasp 在场景物体上生成 \(N\) 个几何稳定的候选抓取 \(\{G_{A,i}\}\)。对每个候选计算任务兼容性分数:
最终分数为加权和:\(S_i = w_{\text{task}} S_{\text{task},i} + w_{\text{geo}} S_{\text{geo},i}\),其中 \(w_{\text{task}}=0.95, w_{\text{geo}}=0.05\)(重度偏向任务兼容性,因为 AnyGrasp 已确保几何质量)。
实验关键数据¶
主实验:TaskGrasp 数据集上的 mAP¶
| 方法 | All Data | Held-out Objects | Held-out Tasks |
|---|---|---|---|
| Random | 0.49 | 0.41 | 0.43 |
| RTAGrasp(免训练SOTA) | 0.58 | 0.52 | 0.51 |
| GraspMolmo(379K训练) | 0.62 | 0.57 | 0.55 |
| GRIM(免训练,210实例) | 0.67 | 0.65 | 0.64 |
- GRIM 在全数据集上超越 GraspMolmo 5 个点——后者使用了 379K 标注样本训练
- 在 held-out 泛化场景中优势更明显:GRIM 仅下降约 3%,RTAGrasp 下降超过 10%
消融实验¶
| 配置 | mAP (All Data) | 说明 |
|---|---|---|
| GRIM w/o Semantic Alignment | 0.50 | 接近随机,证明语义对齐是最关键组件 |
| GRIM w/o Grasp Refinement | 0.59 | 还行但不够好,精炼步骤将功能意图转化为物理可行 |
| GRIM (Full Model) | 0.67 | 两个组件缺一不可 |
真机验证¶
在 Kinova Gen3 Lite 上用两个 RGB-D 相机测试 5 种新物体 × 10 次试验:
| 结果 | 数值 | 说明 |
|---|---|---|
| 成功率 | 39/50 (78%) | 失败源于点云噪声和标定误差,非抓取选择错误 |
| 推理时间 | ~10 秒 | 在线推理高效 |
| 记忆构建 | ~7 分钟/实例 | 一次性离线成本 |
关键发现¶
- 语义对齐是核心:移除后性能近乎随机。DINO 特征使得系统能处理"功能相似但形状不同"的物体
- 免训练优于大规模训练:210 个多源记忆实例 > 379K 标注样本,说明检索-对齐范式对抓取迁移非常有效
- 泛化鲁棒性强:Held-out 场景下性能几乎不下降,说明语义对齐具有强泛化能力
- 失败模式明确:依赖于输入点云质量——严重传感器噪声或极度稀疏时语义对应建立失败
亮点与洞察¶
- 数据效率极其出色:用 210 个未经精选的记忆实例打败了在 379K 精心标注数据上训练的模型
- 生成式 AI 在机器人学中的优雅应用:不是用 VGM 直接做决策,而是用它来"想象"抓取场景、创造训练数据,非常聪明
- 语义优先、几何精炼的设计理念:在 3D 对齐中把语义权重设为几何的 10 倍,在最终评分中把任务兼容性权重设为几何质量的 19 倍——这种强先验非常合理
- 终身学习能力:记忆库可在运行时通过人工示范动态扩展
局限与展望¶
- 依赖多个上游预训练模型(Gemini Pro, VEO2, SAM, 手物重建等),可能继承幻觉和偏差
- 离线记忆构建每个实例需 7 分钟,大规模记忆库的可扩展性受限
- 真机实验中失败主要源于点云质量——需要更好的感知前端
- 未考虑非刚性物体或可变形物体的抓取
相关工作与启发¶
- 与 RTAGrasp 的关键区别在于 GRIM 使用 3D 语义特征对齐而非 2D 特征匹配,对视角变化更鲁棒
- 与 GraspGPT 的关键区别在于完全免训练——避免了数据获取瓶颈
- 启发:在机器人操作中,检索+对齐+精炼 的范式可能是一种普适的高效学习方式
评分¶
- 新颖性: ⭐⭐⭐⭐ — 语义 3D 对齐 + 生成式记忆构建是核心创新
- 实验充分度: ⭐⭐⭐⭐ — 仿真基准+消融+真机全面覆盖
- 写作质量: ⭐⭐⭐⭐ — 框架描述清晰,公式规范
- 价值: ⭐⭐⭐⭐⭐ — 免训练超越大规模训练方法具有很强示范意义
相关论文¶
- [CVPR 2026] ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation
- [ICLR 2026] Grounding Generative Planners in Verifiable Logic: A Hybrid Architecture for Trustworthy Embodied AI
- [CVPR 2025] RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins
- [AAAI 2026] Human-Centric Open-Future Task Discovery: Formulation, Benchmark, and Scalable Tree-Based Search
- [ICCV 2025] Rep-MTL: Unleashing the Power of Representation-Level Task Saliency for Multi-Task Learning