LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation¶
会议: CVPR 2025
arXiv: 2603.12967
代码: 待确认
领域: 机器人操作
关键词: 语言条件操作, 动作解耦, 运动原语, 对比学习, 动作表征, 组合泛化
一句话总结¶
提出 LaDA,将 7-DoF 机器人动作解耦为平移/旋转/夹爪三类运动原语并与语言语义建立对应,通过软标签对比学习和自适应损失加权,以 1.3B 参数在 LIBERO 上达到 93.6% 平均成功率。
研究背景与动机¶
- 视觉-语言-动作的异构性: 机器人操作中,高级视觉-语言理解(「拿起红色杯子」)与低级运动控制(关节角度/速度)存在巨大语义鸿沟
- 现有方法的局限: 多数 VLA 方法将动作作为不可解释的 7 维向量直接预测,忽略了动作内部的结构化语义
- 共享运动原语未被利用: 不同任务共享相似的运动原语(如「向前推」「向右旋转」「夹紧」),现有方法无法跨任务复用这些原语
- 组合泛化的需求: 在新任务中,如果能将已学习的运动原语组合使用,将大幅提升泛化能力
- 语言与运动的自然对应: 语言描述中的动词(push, pull, rotate)自然对应特定类型的运动原语,这种对应关系可以被显式建模
- 核心idea: 将 7-DoF 动作解耦为 translation/rotation/gripper 三类原语,通过语言建立每类原语的语义基础,以实现组合泛化
方法详解¶
整体框架¶
LaDA 包含三个核心模块:
- 动作解耦: 将 7-DoF (\(\Delta x, \Delta y, \Delta z, \Delta r_x, \Delta r_y, \Delta r_z, g\)) 分解为平移、旋转、夹爪三类运动原语
- 语言对齐: 通过软标签对比学习将每类运动原语与语言语义空间对齐
- 自适应损失加权: 平衡三个解耦分支的训练进度
关键设计 1: 运动原语解耦¶
- 平移原语: \([\Delta x, \Delta y, \Delta z]\),对应空间位移
- 旋转原语: \([\Delta r_x, \Delta r_y, \Delta r_z]\),对应姿态变化
- 夹爪原语: \([g]\),对应抓取/释放动作
- 每类原语用独立的 action head 预测,共享视觉-语言 backbone
- 解耦使模型能学到更纤细的动作语义
关键设计 2: 软标签对比学习¶
- 不像传统对比学习用 0/1 硬标签,而是用语言指令之间的语义相似度作为软标签
- 例如:「push the red cup」和「push the blue cup」的平移原语应该相似,因为两者的「push」语义接近
- 语义相似度通过 sentence embedding 的余弦相似度计算
- 这种设计让模型学会:语义相似的指令应该产生相似的运动原语
关键设计 3: 自适应损失加权¶
- 三个原语分支的损失尺度和训练难度不同(如旋转通常比平移难预测)
- 动态调整每个分支的损失权重,避免某个分支主导训练进程
- 确保平移/旋转/夹爪三者的训练进度均衡发展
实验关键数据¶
主实验 (LIBERO Benchmark)¶
| 任务套件 | LaDA (1.3B) | CLIP-RT (2.6B) | OpenVLA | RoboFlamingo |
|---|---|---|---|---|
| Spatial | 96.4% | — | — | — |
| Object | 97.8% | — | — | — |
| Goal | 88.4% | — | — | — |
| Long-horizon | 86.4% | — | — | — |
| Average | 93.6% | ~89% | ~85% | ~82% |
- LaDA 参数量仅 1.3B,是 CLIP-RT 的一半
消融实验¶
| 配置 | 平均 SR | 说明 |
|---|---|---|
| 完整 LaDA | 93.6% | 全部组件 |
| 无解耦(统一预测) | ~88% | 7-DoF 统一预测 |
| 无软标签(硬标签对比) | ~90% | 0/1 硬标签 |
| 无自适应加权 | ~91% | 固定权重 |
| 无语言对齐 | ~87% | 仅用回归损失 |
关键发现¶
- 语言对齐是最大贡献因子(去掉后 -6.6pp)
- 动作解耦贡献 +5.6pp,说明结构化分解对性能有显著帮助
- 软标签 vs 硬标签的差距 (+3.6pp) 证明了语言相似度作为监督信号的有效性
- LaDA 以少一半参数超越 CLIP-RT,说明动作解耦+语言对齐比单纯增大模型更有效
亮点与洞察¶
- 运动原语与语言的自然对应: 充分利用了人类语言描述运动的自然结构,设计优雅
- 软标签的精妙设计: 语义相似度作为对比学习的软监督信号,比硬标签更细腑
- 高效性: 1.3B 参数达到 SOTA,验证了结构化设计比暴力增大模型更有效
- 组合泛化潜力: 解耦的三类原语可以“拼装”出新任务所需的动作
局限性¶
- 仅在 LIBERO 仿真环境中验证,真实机器人实验缺失
- 平移/旋转/夹爪的三元分解是针对 7-DoF 的特定设计,对更复杂的机器人(如灵巧手)需要重新设计原语
- Long-horizon (86.4%) 仍有提升空间,说明对长序列的组合推理还不够强
- 未探讨负迁移问题——某些相似但不同的运动原语可能相互干扰
相关工作与启发¶
- CLIP-RT: 用 CLIP 对齐视觉-语言-动作,但未解耦动作结构,参数量 2.6B
- OpenVLA: 通用 VLA 模型,直接预测原始动作向量
- 启发: 动作解耦思路可以推广到更广泛的具身智能任务,如导航、逼真角色动画等
评分¶
- 新颖性: ⭐⭐⭐⭐ — 运动原语解耦+语言对齐的组合思路新颖
- 实验充分度: ⭐⭐⭐☆ — 消融详细但缺少真机实验
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法直观
- 实用性: ⭐⭐⭐☆ — 模型小且高效,但仅限仿真
- 综合推荐: ⭐⭐⭐⭐