跳转至

AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis

会议: CVPR 2026
arXiv: 2603.08021
代码: Project Page (有)
领域: 3D Vision / Hand-Object Interaction
关键词: 抓取生成, 可供性, 跨模态扩散, 手物交互, 语义指令

一句话总结

AffordGrasp 提出了一个基于扩散的跨模态框架,通过可供性引导的潜空间扩散和分布调节模块(DAM),从文本指令和物体点云生成物理可行且语义一致的人手抓取姿态,在四个基准上显著超越现有方法。

研究背景与动机

领域现状:语义抓取生成旨在根据用户指令合成与物体交互的手部姿态,是 AR/VR 和具身智能的关键能力。

现有痛点: - 3D 几何与自然语言之间存在巨大的模态鸿沟,直接融合难以实现细粒度的几何-语义对齐(如区分"握把手"和"握杯口"); - 现有扩散管线缺乏显式的空间和语义约束,常产生物理不合理或语义不一致的抓取。

核心矛盾:如何在保证物理可行性的同时,让生成的抓取姿态精确对应语言指令所描述的交互意图?

本文切入角度:引入物体可供性(affordance)作为跨模态桥梁,将语言语义与3D几何通过可供性区域连接,辅以分布调节模块在采样后强制物理和语义一致性。

核心 idea:可供性驱动的潜空间扩散 + 分布调节模块 = 物理可行 + 语义精确。

方法详解

整体框架

输入:物体点云 \(P_g\) + 文本指令 \(I\) → Affordance Generator 预测可供性图 \(P_a\) → 多模态编码融合 \(f = \{f_I, f_{pg}, f_{pa}\}\) → 潜空间扩散模型生成手部潜码 → DAM 模块精炼 → MANO 层输出手部网格 \(h_m\)

关键设计

  1. Affordance Generator(可供性生成器)

    • 功能:预测物体点云上每个点与指令相关的可供性概率图。
    • 核心思路:基于 LASO 架构,在 AffordPose 上初始训练后,通过自训练循环扩展到 OakInk 和 GRAB 数据集。使用 Focal Loss + Dice Loss 处理正负样本不平衡:\(\mathcal{L} = \mathcal{L}_{\text{focal}} + \lambda_1 \mathcal{L}_{\text{dice}}\)
    • 设计动机:可供性区域提供显式的中间表示,将"在哪里抓"的空间信息从语言指令中解耦出来,降低跨模态融合难度。
  2. Cross-Modal Latent Diffusion Model(跨模态潜扩散)

    • 功能:在手部姿态的潜空间中学习条件分布。
    • 核心思路
      • 用预训练 VAE 将手部网格顶点 \(h_v^{gt} \in \mathbb{R}^{778 \times 3}\) 编码为紧凑潜码 \(h_z\)
      • 前向扩散:\(z^t = \sqrt{\alpha_t} z^0 + \sqrt{1 - \alpha_t} \epsilon\)
      • 训练条件 U-Net 预测噪声:\(L_{LDM} = \mathbb{E}\|\epsilon - \epsilon_\theta(z^t, f, t)\|_2^2\)
      • 条件特征 \(f = \{f_I, f_{pg}, f_{pa}\}\) 分别由 RoBERTa 和两个独立 PointNet 编码
    • 设计动机:在潜空间操作更高效,且能更好保留手部姿态的空间结构。
  3. Distribution Adjustment Module (DAM,分布调节模块)

    • 功能:在扩散采样后精炼潜码,确保物理约束和语义对齐。
    • 核心思路
      • 从噪声预测恢复潜手部表示:\(\hat{h}_z = \frac{1}{\sqrt{\alpha_t}}(z^t - \sqrt{1-\alpha_t}\epsilon_\theta(z^t, f, t))\)
      • 融合空间特征 \(f_{\text{spatial}} = \text{Norm}(f_{pg} + f_{pa}) + \hat{h}_z\)
      • 多头注意力与指令交互:\(f_{\text{align}} = \text{Attention}(f_I, f_{\text{spatial}}, f_{\text{spatial}}) + f_I\)
      • 双残差精炼:\(\tilde{h}_z = \text{Norm}(\text{MLP}(f_{\text{align}}) + \hat{h}_z)\)
    • 设计动机:扩散模型的去噪输出可能在接触约束和语义细节上不够精确,DAM 作为轻量后处理模块在单次前馈中修正,避免了基于梯度的采样修正的高计算开销。

损失函数 / 训练策略

  • 两阶段训练:先训练扩散模型(冻结 DAM),再冻结扩散模型训练 DAM
  • DAM 损失:\(\mathcal{L} = \mathcal{L}_{\text{recon}}(h_v, h_p, h_v^{gt}, h_p^{gt}) + \lambda_2 \mathcal{L}_{\text{physical}}(h_m, h_m^{gt}, P_g)\)
  • 重建损失包括 MANO 参数和顶点对齐,物理损失惩罚穿透和接触不一致

实验关键数据

主实验

数据集 方法 穿透体积↓ 位移↓ 接触率↑ 语义准确率↑
OakInk FastGrasp 7.88 2.27 88% 78.05%
OakInk AffordGrasp 7.31 1.43 98% 80.08%
GRAB FastGrasp 4.61 1.20 94% 61.50%
GRAB AffordGrasp 3.06 1.66 94% 62.50%
HO-3D (OOD) D-VQVAE 13.12 2.33 95% 64.00%
HO-3D (OOD) AffordGrasp 7.38 2.33 97% 72.00%

消融实验

配置 穿透体积↓ 接触率↑ 语义准确率↑ 说明
w/o affordance 8.27 97% 76.56% 去掉可供性,穿透增加
w/o DAM 8.12 97% 79.11% 去掉 DAM,语义略降
完整管线 7.31 98% 80.08% 两个模块协同最优

关键发现

  • 跨域泛化能力突出:在 GRAB 上训练的模型在 HO-3D 和 AffordPose 上零样本表现远超基线
  • 可供性区域有效降低了穿透体积(物体-手碰撞减少),证明空间引导的重要性
  • DAM 的双残差机制保留了扩散输出的核心结构,同时有效修正局部细节

亮点与洞察

  • 可供性作为跨模态桥梁的思路简洁有效,避免了 VLM 多轮推理的不稳定性
  • 自训练循环标注管线解决了可供性标注数据稀缺的问题
  • DAM 作为轻量后处理模块,可推广到其他条件生成任务

局限与展望

  • 未显式建模物理先验(重力、摩擦),某些真实场景效果可能受限
  • AffordPose 因缺少 MANO 参数被排除在训练外,限制了物体多样性
  • 推理阶段仍需多步 DDIM 采样,实时性有待提升

相关工作与启发

  • 与 SemGrasp 相比,避免了 2D 投影遮挡问题,直接在 3D 空间操作
  • DAM 的思路类似于 ControlNet 的后处理精炼,但无需重训练基础模型

评分

  • 新颖性: ⭐⭐⭐⭐ 可供性引导+DAM 的组合设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ 四个数据集+域内域外+丰富消融+物理仿真验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表质量高
  • 价值: ⭐⭐⭐⭐ 对具身智能中的语义抓取有实际推动作用

相关论文