DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness¶

会议: CVPR 2025
arXiv: 2503.08257
代码: https://github.com/4DVLab/DexGrasp-Anything
领域: 机器人灵巧抓取
关键词: 灵巧手抓取、扩散模型、物理约束、大规模数据集、通用抓取

一句话总结¶

本文提出 DexGrasp Anything，将三种物理约束力集成到扩散模型的训练和采样阶段，实现几乎所有开放数据集上 SOTA 的灵巧手抓取姿态生成，并构建了包含 15K+ 物体、340万+ 抓取姿态的最大规模灵巧抓取数据集。

领域现状：灵巧手抓取是机器人操作核心能力。ShadowHand 有 24 个关节参数，搜索空间极大。扩散模型因能生成多样化高质量样本而成为建模抓取分布的主流选择。

现有痛点：现有扩散方法在训练和采样中缺乏物理约束，生成的抓取姿态经常出现手-物体穿透或接触不足。同时现有数据集规模有限、物体类别窄。

核心矛盾：扩散模型标准 MSE 训练目标只关注噪声预测精度，不包含物理可行性的显式监督。

本文目标：(1) 将物理先验嵌入扩散模型训练和采样；(2) 构建大规模高质量灵巧抓取数据集。

切入角度：通过 Tweedie 公式从噪声预测反推干净样本 \(\hat{h}_0\) 来计算物理约束损失，在采样阶段用后验采样持续施加物理引导。

核心 idea：三种物理约束力（surface pulling、external-penetration repulsion、self-penetration repulsion）+ 训练和采样双重注入 + LLM 增强物体表示。

给定物体3D点云 \(O\)，训练条件扩散模型生成灵巧手抓取姿态 \(h = (\theta, R, t) \in \mathbb{R}^{33}\)。物体特征通过 Point Transformer 编码并融合 LLM 语义先验。

三种物理约束力:
- 功能：确保生成的抓取姿态物理可行
- 核心思路：(a) 表面拉力（SPF）：对手掌内表面点计算到物体最近邻距离，近距离点施加拉力使手指贴近；(b) 外穿透斥力（ERF）：利用签名距离检测穿透并施加斥力；(c) 自穿透斥力（SRF）：手指间成对距离低于阈值时施加斥力防止互穿。
- 设计动机：SPF 确保"抓得住"，ERF 确保"不穿透"，SRF 确保"不打架"——覆盖灵巧抓取三个核心物理要求。
物理感知训练 + 物理引导采样:
- 功能：将物理约束同时嵌入训练和推理
- 核心思路：训练时从噪声预测通过 Tweedie 反推 \(\hat{h}_0\)，施加 \(L_{PADG} = L_{simple} + \sum \alpha_i L_{PA_i}(\hat{h}_0)\)。采样时用 classifier guidance 风格的后验采样，将物理约束梯度映射到 posterior mean 偏移量，并用球面高斯约束缓解估计偏差。
- 设计动机：训练阶段提供"稀疏"的物理监督，采样阶段迭代精细化将分布引导到物理可行区域，两者互补。
LLM 增强的物体表示:
- 功能：为点云几何特征补充语义先验
- 核心思路：LLM 生成物体描述，BERT 编码为语义向量，与 Point Transformer 几何特征拼接后通过 cross-attention 融入扩散主干。
- 设计动机：纯点云难区分功能相似而形状不同的物体，语义先验提供高层"怎么抓"的知识。

\(L_{PADG} = L_{simple} + \alpha_1 L_{SPF} + \alpha_2 L_{ERF} + \alpha_3 L_{SRF}\)。"Model-in-the-loop"策略：用已训练模型生成新姿态，经 IsaacGym 验证后加入数据集。

5 个数据集评估（Suc.6 = 6N力下成功率）：

方法	DexGraspNet	UniDexGrasp	MultiDex	RealDex	DexGRAB
UniDexGrasp	33.9	23.7	21.6	27.1	20.8
GraspTTA	18.6	21.0	30.3	13.3	14.4
DexGrasp Anything	最优	最优	最优	最优	最优