UniHM: Unified Dexterous Hand Manipulation with Vision Language Model¶

会议: ICLR 2026
arXiv: 2603.00732
代码: GitHub
领域: 多模态VLM
关键词: 灵巧手操控, VLM, 统一 tokenizer, 物理动态优化, 跨形态泛化

一句话总结¶

提出UniHM，首个统一的语言条件灵巧手操控框架，通过形态无关VQ codebook将异构机械手映射到共享离散空间，结合VLM进行指令驱动操控序列生成，并通过物理引导动态优化确保物理可行性。

研究背景与动机¶

灵巧手操控要求感知、抓取和重新配置复杂环境中的物体，生成多样、长时域、物理可行的操控序列是推进人形机器人应用的关键。

现有方法的不足： - 以物体为中心的方法（UniDexGrasp, DexGraspNet等）：缺乏开放词汇指令引导，仅能处理固定序列 - 语言引导的抓取方法（SemGrasp, AffordDexGrasp等）：主要生成静态抓取姿态，忽略时序结构，无法产生平滑连续的操控序列 - 现有VLM操控方法（MotionGPT, HOIGPT等）：主要针对数字手或低自由度夹持器，缺乏跨手型泛化和物理可行性保证

本文目标：直接从图像和开放词汇指令生成动态灵巧手操控序列，支持多种手型，且不依赖遥操作数据。

方法详解¶

整体框架¶

三阶段流水线：（1）形态无关运动Tokenization；（2）语言引导的VLM操控序列生成；（3）物理感知解码与动态优化。

关键设计¶

Unified Hand-Dexterous Tokenizer: 使用共享VQ-VAE codebook $\mathcal{Z} = \{\mathbf{e}_k\}_{k=1}^K$ 将不同手型（MANO、Shadow hand、Allegro hand等5种）映射到统一离散空间。每个手型有专用编码器 $E_h$ 和解码器 $D_h$，量化操作为 $c = \arg\min_k \|E_h(\mathbf{x}^{(h)}) - \mathbf{e}_k\|_2^2$。新手型通过知识蒸馏对齐编码器：$\mathcal{L}_{\text{distill}} = \|E_{\text{new}}(\mathbf{x}_{\text{new}}) - E_{\text{ref}}(\mathbf{x}_{\text{ref}})\|_2^2$，绕过量化步骤的梯度不可微问题。跨手型翻译只需编码-量化-解码：$\hat{\mathbf{x}}^{(j)} = D_j(\mathbf{e}_{Q(E_i(\mathbf{x}^{(i)}))})$。
VLM驱动的操控生成: 采用解耦架构——CLIPort感知模块从RGB-D和指令推断目标轨迹 $\mathcal{T}_{\text{tar}}$，Point-SAM分割目标物体点云 $\mathcal{P}_{\text{obj}}$。以Qwen3-0.6B为基座模型，将初始手姿态编码、目标轨迹、物体点云和文本token拼接输入VLM生成操控token序列。采用渐进遮蔽训练课程：从完全教师强制逐步增大遮蔽比例到纯自回归。
Physics-guided Dynamic Refinement: 逐帧Gauss-Newton优化，包含三项能量：
- 接触能量 $\mathcal{E}_{\text{contact}}$：基于指尖到物体表面的有符号点到面距离，使用非对称平滑惩罚
- 生成先验 $\mathcal{E}_{\text{gen}}$：惩罚偏离VLM生成配置，保持语义意图
- 时序先验 $\mathcal{E}_{\text{time}}$：正则化一阶（速度）和二阶（加速度）时序差分，确保平滑连贯

损失函数 / 训练策略¶

VQ-VAE训练：重建损失 + codebook损失 $\mathcal{L}_{\text{vq}} = \|\text{sg}[\mathbf{z}_e] - \mathbf{z}_q\|_2^2 + \beta\|\mathbf{z}_e - \text{sg}[\mathbf{z}_q]\|_2^2$

物理优化用Levenberg-Marquardt阻尼的Gauss-Newton迭代： $$(J_t^T J_t + \mathbf{W}_{\text{gen}} + \mathbf{W}_{\text{vel}} + \mathbf{W}_{\text{acc}} + \lambda I)\Delta q_t = -J_t^T r_{\text{contact}}(q_t) - \tilde{\mathbf{W}}$$

数据标注：GPT-4o对关键帧生成5条开放词汇指令；Dex-Retargeting将MANO姿态映射到5种机械手。

实验关键数据¶

主实验¶

方法	DexYCB Seen MPJPE↓	FID↓	Diversity(GT=125.53)	DexYCB Unseen MPJPE↓	FID↓
TM2T	85.33	54.83	37.12	94.22	55.94
MDM	88.06	52.33	33.95	93.05	55.13
FlowMDM	82.75	48.05	61.25	86.13	51.33
MotionGPT3	74.80	43.35	72.51	77.93	46.14
UniHM	61.40	31.24	39.62	63.56	41.03

真实世界成功率	Grab	Pick&Place	Pull&Push	Open&Close
MDM+Retarget (Seen)	20%	10%	0%	5%
MotionGPT3+Retarget (Seen)	30%	15%	25%	25%
UniHM (Seen)	65%	50%	60%	55%
UniHM (Unseen)	60%	35%	55%	45%

消融实验¶

配置	DexYCB Seen MPJPE↓	FID↓	DexYCB Unseen MPJPE↓	FID↓	说明
w/o Depth Input	85.47	56.36	90.12	77.38	仅RGB严重退化
w/o Masked Training	73.41	44.87	74.63	43.09	渐进遮蔽重要
w/o Physical Refinement	65.78	33.57	65.39	45.06	物理优化提升可行性
Full UniHM	61.40	31.24	63.56	41.03	各模块均不可或缺

关键发现¶

UniHM在DexYCB和OakInk上全面超越SOTA，Seen/Unseen场景MPJPE分别降低18%/18%
真实世界抓取成功率远超基线（Grab: 65% vs 30%），且对未见物体泛化良好
深度输入对3D场景理解至关重要，去掉后MPJPE增加约40%
物理优化对减少穿透和提升稳定性效果显著
统一codebook实现了跨5种手型的即插即用迁移

亮点与洞察¶

首个完全统一的语言条件灵巧手操控框架，从静态姿态生成扩展到动态序列操控
形态无关codebook设计优雅：知识蒸馏绕过VQ不可微，新手型仅需训练新编解码器
仅用人类视频数据训练即可，无需昂贵的遥操作数据收集
物理引导优化将生成先验、时序先验和接触约束统一在同一框架中

局限与展望¶

依赖RGB-D输入，缺乏触觉和力反馈
接触和摩擦的能量项较简化
未覆盖双手协作和工具使用场景
Qwen3-0.6B基座较小，更大模型可能进一步提升
CLIPort在新场景需微调，端到端统一感知和生成是未来方向

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个统一语言条件灵巧手操控框架，多项首创设计
实验充分度: ⭐⭐⭐⭐ DexYCB+OakInk+真实世界，消融完整；但跨手型泛化定量评估有限
写作质量: ⭐⭐⭐⭐ 方法描述详细，物理优化公式推导清晰
价值: ⭐⭐⭐⭐⭐ 解决了灵巧手操控领域的核心痛点，实际应用潜力大