AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis¶

会议: CVPR 2026
arXiv: 2603.08021
代码: Project Page (有)
领域: 3D Vision / Hand-Object Interaction
关键词: 抓取生成, 可供性, 跨模态扩散, 手物交互, 语义指令

一句话总结¶

AffordGrasp 提出了一个基于扩散的跨模态框架，通过可供性引导的潜空间扩散和分布调节模块（DAM），从文本指令和物体点云生成物理可行且语义一致的人手抓取姿态，在四个基准上显著超越现有方法。

研究背景与动机¶

领域现状：语义抓取生成旨在根据用户指令合成与物体交互的手部姿态，是 AR/VR 和具身智能的关键能力。

现有痛点： - 3D 几何与自然语言之间存在巨大的模态鸿沟，直接融合难以实现细粒度的几何-语义对齐（如区分"握把手"和"握杯口"）； - 现有扩散管线缺乏显式的空间和语义约束，常产生物理不合理或语义不一致的抓取。

核心矛盾：如何在保证物理可行性的同时，让生成的抓取姿态精确对应语言指令所描述的交互意图？

本文切入角度：引入物体可供性（affordance）作为跨模态桥梁，将语言语义与3D几何通过可供性区域连接，辅以分布调节模块在采样后强制物理和语义一致性。

核心 idea：可供性驱动的潜空间扩散 + 分布调节模块 = 物理可行 + 语义精确。

方法详解¶

整体框架¶

输入：物体点云 \(P_g\) + 文本指令 \(I\) → Affordance Generator 预测可供性图 \(P_a\) → 多模态编码融合 \(f = \{f_I, f_{pg}, f_{pa}\}\) → 潜空间扩散模型生成手部潜码 → DAM 模块精炼 → MANO 层输出手部网格 \(h_m\)。

关键设计¶

Affordance Generator（可供性生成器）：
- 功能：预测物体点云上每个点与指令相关的可供性概率图。
- 核心思路：基于 LASO 架构，在 AffordPose 上初始训练后，通过自训练循环扩展到 OakInk 和 GRAB 数据集。使用 Focal Loss + Dice Loss 处理正负样本不平衡：\(\mathcal{L} = \mathcal{L}_{\text{focal}} + \lambda_1 \mathcal{L}_{\text{dice}}\)
- 设计动机：可供性区域提供显式的中间表示，将"在哪里抓"的空间信息从语言指令中解耦出来，降低跨模态融合难度。
Cross-Modal Latent Diffusion Model（跨模态潜扩散）：
- 功能：在手部姿态的潜空间中学习条件分布。
- 核心思路：
  - 用预训练 VAE 将手部网格顶点 \(h_v^{gt} \in \mathbb{R}^{778 \times 3}\) 编码为紧凑潜码 \(h_z\)
  - 前向扩散：\(z^t = \sqrt{\alpha_t} z^0 + \sqrt{1 - \alpha_t} \epsilon\)
  - 训练条件 U-Net 预测噪声：\(L_{LDM} = \mathbb{E}\|\epsilon - \epsilon_\theta(z^t, f, t)\|_2^2\)
  - 条件特征 \(f = \{f_I, f_{pg}, f_{pa}\}\) 分别由 RoBERTa 和两个独立 PointNet 编码
- 设计动机：在潜空间操作更高效，且能更好保留手部姿态的空间结构。
Distribution Adjustment Module (DAM，分布调节模块)：
- 功能：在扩散采样后精炼潜码，确保物理约束和语义对齐。
- 核心思路：
  - 从噪声预测恢复潜手部表示：\(\hat{h}_z = \frac{1}{\sqrt{\alpha_t}}(z^t - \sqrt{1-\alpha_t}\epsilon_\theta(z^t, f, t))\)
  - 融合空间特征 \(f_{\text{spatial}} = \text{Norm}(f_{pg} + f_{pa}) + \hat{h}_z\)
  - 多头注意力与指令交互：\(f_{\text{align}} = \text{Attention}(f_I, f_{\text{spatial}}, f_{\text{spatial}}) + f_I\)
  - 双残差精炼：\(\tilde{h}_z = \text{Norm}(\text{MLP}(f_{\text{align}}) + \hat{h}_z)\)
- 设计动机：扩散模型的去噪输出可能在接触约束和语义细节上不够精确，DAM 作为轻量后处理模块在单次前馈中修正，避免了基于梯度的采样修正的高计算开销。

损失函数 / 训练策略¶

两阶段训练：先训练扩散模型（冻结 DAM），再冻结扩散模型训练 DAM
DAM 损失：\(\mathcal{L} = \mathcal{L}_{\text{recon}}(h_v, h_p, h_v^{gt}, h_p^{gt}) + \lambda_2 \mathcal{L}_{\text{physical}}(h_m, h_m^{gt}, P_g)\)
重建损失包括 MANO 参数和顶点对齐，物理损失惩罚穿透和接触不一致

实验关键数据¶

主实验¶

数据集	方法	穿透体积↓	位移↓	接触率↑	语义准确率↑
OakInk	FastGrasp	7.88	2.27	88%	78.05%
OakInk	AffordGrasp	7.31	1.43	98%	80.08%
GRAB	FastGrasp	4.61	1.20	94%	61.50%
GRAB	AffordGrasp	3.06	1.66	94%	62.50%
HO-3D (OOD)	D-VQVAE	13.12	2.33	95%	64.00%
HO-3D (OOD)	AffordGrasp	7.38	2.33	97%	72.00%

消融实验¶

配置	穿透体积↓	接触率↑	语义准确率↑	说明
w/o affordance	8.27	97%	76.56%	去掉可供性，穿透增加
w/o DAM	8.12	97%	79.11%	去掉 DAM，语义略降
完整管线	7.31	98%	80.08%	两个模块协同最优

关键发现¶

跨域泛化能力突出：在 GRAB 上训练的模型在 HO-3D 和 AffordPose 上零样本表现远超基线
可供性区域有效降低了穿透体积（物体-手碰撞减少），证明空间引导的重要性
DAM 的双残差机制保留了扩散输出的核心结构，同时有效修正局部细节

亮点与洞察¶

可供性作为跨模态桥梁的思路简洁有效，避免了 VLM 多轮推理的不稳定性
自训练循环标注管线解决了可供性标注数据稀缺的问题
DAM 作为轻量后处理模块，可推广到其他条件生成任务

局限与展望¶

未显式建模物理先验（重力、摩擦），某些真实场景效果可能受限
AffordPose 因缺少 MANO 参数被排除在训练外，限制了物体多样性
推理阶段仍需多步 DDIM 采样，实时性有待提升

评分¶

新颖性: ⭐⭐⭐⭐ 可供性引导+DAM 的组合设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 四个数据集+域内域外+丰富消融+物理仿真验证
写作质量: ⭐⭐⭐⭐ 结构清晰，图表质量高
价值: ⭐⭐⭐⭐ 对具身智能中的语义抓取有实际推动作用