AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis¶
会议: CVPR 2026
arXiv: 2603.08021
代码: Project Page (有)
领域: 3D Vision / Hand-Object Interaction
关键词: 抓取生成, 可供性, 跨模态扩散, 手物交互, 语义指令
一句话总结¶
AffordGrasp 提出了一个基于扩散的跨模态框架,通过可供性引导的潜空间扩散和分布调节模块(DAM),从文本指令和物体点云生成物理可行且语义一致的人手抓取姿态,在四个基准上显著超越现有方法。
研究背景与动机¶
领域现状:语义抓取生成旨在根据用户指令合成与物体交互的手部姿态,是 AR/VR 和具身智能的关键能力。
现有痛点: - 3D 几何与自然语言之间存在巨大的模态鸿沟,直接融合难以实现细粒度的几何-语义对齐(如区分"握把手"和"握杯口"); - 现有扩散管线缺乏显式的空间和语义约束,常产生物理不合理或语义不一致的抓取。
核心矛盾:如何在保证物理可行性的同时,让生成的抓取姿态精确对应语言指令所描述的交互意图?
本文切入角度:引入物体可供性(affordance)作为跨模态桥梁,将语言语义与3D几何通过可供性区域连接,辅以分布调节模块在采样后强制物理和语义一致性。
核心 idea:可供性驱动的潜空间扩散 + 分布调节模块 = 物理可行 + 语义精确。
方法详解¶
整体框架¶
输入:物体点云 \(P_g\) + 文本指令 \(I\) → Affordance Generator 预测可供性图 \(P_a\) → 多模态编码融合 \(f = \{f_I, f_{pg}, f_{pa}\}\) → 潜空间扩散模型生成手部潜码 → DAM 模块精炼 → MANO 层输出手部网格 \(h_m\)。
关键设计¶
-
Affordance Generator(可供性生成器):
- 功能:预测物体点云上每个点与指令相关的可供性概率图。
- 核心思路:基于 LASO 架构,在 AffordPose 上初始训练后,通过自训练循环扩展到 OakInk 和 GRAB 数据集。使用 Focal Loss + Dice Loss 处理正负样本不平衡:\(\mathcal{L} = \mathcal{L}_{\text{focal}} + \lambda_1 \mathcal{L}_{\text{dice}}\)
- 设计动机:可供性区域提供显式的中间表示,将"在哪里抓"的空间信息从语言指令中解耦出来,降低跨模态融合难度。
-
Cross-Modal Latent Diffusion Model(跨模态潜扩散):
- 功能:在手部姿态的潜空间中学习条件分布。
- 核心思路:
- 用预训练 VAE 将手部网格顶点 \(h_v^{gt} \in \mathbb{R}^{778 \times 3}\) 编码为紧凑潜码 \(h_z\)
- 前向扩散:\(z^t = \sqrt{\alpha_t} z^0 + \sqrt{1 - \alpha_t} \epsilon\)
- 训练条件 U-Net 预测噪声:\(L_{LDM} = \mathbb{E}\|\epsilon - \epsilon_\theta(z^t, f, t)\|_2^2\)
- 条件特征 \(f = \{f_I, f_{pg}, f_{pa}\}\) 分别由 RoBERTa 和两个独立 PointNet 编码
- 设计动机:在潜空间操作更高效,且能更好保留手部姿态的空间结构。
-
Distribution Adjustment Module (DAM,分布调节模块):
- 功能:在扩散采样后精炼潜码,确保物理约束和语义对齐。
- 核心思路:
- 从噪声预测恢复潜手部表示:\(\hat{h}_z = \frac{1}{\sqrt{\alpha_t}}(z^t - \sqrt{1-\alpha_t}\epsilon_\theta(z^t, f, t))\)
- 融合空间特征 \(f_{\text{spatial}} = \text{Norm}(f_{pg} + f_{pa}) + \hat{h}_z\)
- 多头注意力与指令交互:\(f_{\text{align}} = \text{Attention}(f_I, f_{\text{spatial}}, f_{\text{spatial}}) + f_I\)
- 双残差精炼:\(\tilde{h}_z = \text{Norm}(\text{MLP}(f_{\text{align}}) + \hat{h}_z)\)
- 设计动机:扩散模型的去噪输出可能在接触约束和语义细节上不够精确,DAM 作为轻量后处理模块在单次前馈中修正,避免了基于梯度的采样修正的高计算开销。
损失函数 / 训练策略¶
- 两阶段训练:先训练扩散模型(冻结 DAM),再冻结扩散模型训练 DAM
- DAM 损失:\(\mathcal{L} = \mathcal{L}_{\text{recon}}(h_v, h_p, h_v^{gt}, h_p^{gt}) + \lambda_2 \mathcal{L}_{\text{physical}}(h_m, h_m^{gt}, P_g)\)
- 重建损失包括 MANO 参数和顶点对齐,物理损失惩罚穿透和接触不一致
实验关键数据¶
主实验¶
| 数据集 | 方法 | 穿透体积↓ | 位移↓ | 接触率↑ | 语义准确率↑ |
|---|---|---|---|---|---|
| OakInk | FastGrasp | 7.88 | 2.27 | 88% | 78.05% |
| OakInk | AffordGrasp | 7.31 | 1.43 | 98% | 80.08% |
| GRAB | FastGrasp | 4.61 | 1.20 | 94% | 61.50% |
| GRAB | AffordGrasp | 3.06 | 1.66 | 94% | 62.50% |
| HO-3D (OOD) | D-VQVAE | 13.12 | 2.33 | 95% | 64.00% |
| HO-3D (OOD) | AffordGrasp | 7.38 | 2.33 | 97% | 72.00% |
消融实验¶
| 配置 | 穿透体积↓ | 接触率↑ | 语义准确率↑ | 说明 |
|---|---|---|---|---|
| w/o affordance | 8.27 | 97% | 76.56% | 去掉可供性,穿透增加 |
| w/o DAM | 8.12 | 97% | 79.11% | 去掉 DAM,语义略降 |
| 完整管线 | 7.31 | 98% | 80.08% | 两个模块协同最优 |
关键发现¶
- 跨域泛化能力突出:在 GRAB 上训练的模型在 HO-3D 和 AffordPose 上零样本表现远超基线
- 可供性区域有效降低了穿透体积(物体-手碰撞减少),证明空间引导的重要性
- DAM 的双残差机制保留了扩散输出的核心结构,同时有效修正局部细节
亮点与洞察¶
- 可供性作为跨模态桥梁的思路简洁有效,避免了 VLM 多轮推理的不稳定性
- 自训练循环标注管线解决了可供性标注数据稀缺的问题
- DAM 作为轻量后处理模块,可推广到其他条件生成任务
局限与展望¶
- 未显式建模物理先验(重力、摩擦),某些真实场景效果可能受限
- AffordPose 因缺少 MANO 参数被排除在训练外,限制了物体多样性
- 推理阶段仍需多步 DDIM 采样,实时性有待提升
相关工作与启发¶
- 与 SemGrasp 相比,避免了 2D 投影遮挡问题,直接在 3D 空间操作
- DAM 的思路类似于 ControlNet 的后处理精炼,但无需重训练基础模型
评分¶
- 新颖性: ⭐⭐⭐⭐ 可供性引导+DAM 的组合设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ 四个数据集+域内域外+丰富消融+物理仿真验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表质量高
- 价值: ⭐⭐⭐⭐ 对具身智能中的语义抓取有实际推动作用
相关论文¶
- [CVPR 2025] GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency
- [CVPR 2026] CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration
- [CVPR 2026] Cross-Instance Gaussian Splatting Registration via Geometry-Aware Feature-Guided Alignment
- [CVPR 2026] Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves
- [CVPR 2026] Affostruction: 3D Affordance Grounding with Generative Reconstruction