跳转至

SemGrasp: Semantic Grasp Generation via Language Aligned Discretization

会议: ECCV 2024
arXiv: 2404.03590
代码: https://kailinli.github.io/SemGrasp (有)
领域: LLM/NLP
关键词: semantic grasp generation, VQ-VAE, MLLM, hand-object interaction, discrete representation

一句话总结

提出 SemGrasp,通过层次化 VQ-VAE 将抓取姿态离散化为三个语义对齐的 token(方向/方式/精修),并微调多模态大语言模型实现基于语言指令的语义抓取生成。

研究背景与动机

  • 抓取生成不仅需要考虑物体几何,更需要融入语义信息(如避开热水杯柄的哪一侧)
  • 现有方法将抓取表示为连续参数(MANO 模型参数/接触区域),难以嵌入语义信息
  • 少数尝试语义抓取的工作仅使用粗粒度的 affordance 向量或视觉语言模型过滤采样
  • 人类抓取规划过程:先确定方向 → 再决定方式 → 最后精修细节
  • 缺乏大规模的抓取-语言对齐数据集

方法详解

整体框架

两个核心组件: 1. 抓取离散化:层次化 VQ-VAE 将抓取编码为三个 token 2. 抓取感知语言模型:基于 Vicuna-7B 微调 MLLM,统一物体、抓取和语言三个模态

关键设计

1. 层次化抓取离散化(Hierarchical VQ-VAE)

  • 将抓取 G = (T, θ, β) 分解为三个层次化 token:
    • 方向 token :编码手的全局变换 T(旋转+平移),反映物体功能和意图
    • 方式 token :编码局部手姿态 θ 和形状 β,对应抓取分类法中的 33 种类型
    • 精修 token :编码残差参数 ΔT, Δθ, Δβ,确保物理合理性
  • 条件依赖: 独立 → 条件于 条件于
  • 码本 B 含 K=512 个条目,每个维度 d_B=256
  • 编码器用 PointBERT 提取手和物体点云特征
  • 解码器使用 6D 旋转表示

2. 抓取感知语言模型

  • 输入三个模态:
    • 抓取模态:VQ-VAE 编码的 token(, o, m, r,
    • 物体模态:PointBERT 提取物体特征 → 线性投影层映射到语言空间
    • 语言模态:SentencePiece 分词的文本
  • 两阶段训练:
  • 多模态对齐:训练预测 grasp token,更新物体投影层和嵌入层
  • 指令微调:优化复杂输出的生成质量,冻结投影层
  • 使用 LoRA(rank=64)微调约 6% 参数

3. CapGrasp 数据集

  • 基于 OakInk 数据集扩展,约 1.8K 物体模型、50K 抓取对
  • 三层标注:
    • 低级:手指-物体部件接触状态(距离阈值 3mm)
    • 高级:操作意图和抓取力(GPT-4/GPT-4V 生成)
    • 对话:GPT-4 生成的多轮对话标注
  • 每对平均 5 条详细描述

损失函数 / 训练策略

  • VQ-VAE 损失:L_rec(手顶点重建)+ L_emb(嵌入损失)+ L_com(承诺损失)
  • MLLM 损失:负对数似然 L_NLL = -Σ log p(x̂i | x̂, x)
  • 学习率:多模态对齐阶段 5e-4,指令微调阶段 3e-5
  • 4×A100 80GB GPU,batch size 128,训练 20 epoch

实验关键数据

主实验

方法 MPVPE ↓ PD ↓ SIV ↓ SD mean ↓
GrabNet 27.49 0.54 3.45 1.77
GrabNet w/ TTA 27.16 0.49 2.16 1.35
Ours 14.97 0.46 2.72 2.14
Ours w/ TTA 23.61 0.37 1.27 1.90

MPVPE 降低 45%,渗透深度降低 15%。

消融实验

变体 MPVPE ↓
w/o refinement token 20.36
w/ refinement token 14.97

精修 token 带来 26% 的 MPVPE 改善和 9% 的 SIV 改善。

关键发现

  • 离散表示的可控性:固定 token 可在不同形状的杯子上生成一致的抓取方向和方式
  • 对比 cVAE(GrabNet):固定采样向量 z=0 生成不可解释的结果
  • GPT-4 辅助语义一致性评分:SemGrasp 显著优于 BERT baseline
  • 语义一致性感知评分(PS)4.2/5.0,证明生成抓取的自然性

亮点与洞察

  1. 语义-几何统一:三个 token 的层次化设计完美模拟人类抓取规划过程
  2. 离散化的多重优势:与语言空间对齐、可控可解释、降低学习复杂度
  3. 首个语义抓取大数据集 CapGrasp:涵盖低级到高级的完整标注体系
  4. 将 MLLM 引入抓取生成是新颖的交叉研究思路
  5. 层次化 VQ-VAE 的设计理念可推广到其他手-物交互任务

局限性 / 可改进方向

  • 仅支持 MANO 手模型的抓取生成,不支持灵巧手/机器人手爪
  • 码本大小 K=512 可能不足以表示所有抓取变化
  • GPT-4 生成的高级标注存在幻觉问题,需手动审核
  • 物理仿真中的稳定性(SD 指标)仍有改进空间

相关工作与启发

  • GrabNet: cVAE 基线方法
  • LLaVA: MLLM 架构设计的参考
  • MotionGPT: 将运动序列 token 化融入 LLM 的先驱
  • 启发:离散化+LLM 是统一多模态理解和生成的通用范式

评分

维度 分数 (1-10)
新颖性 9
技术深度 9
实验充分性 8
实用价值 8
写作质量 8
总体评分 8.4

相关论文