跳转至

📚 AI Paper Notes

LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation

LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation¶

会议: CVPR 2025
arXiv: 2603.12967
代码: 待确认
领域: 机器人操作
关键词: 语言条件操作, 动作解耦, 运动原语, 对比学习, 动作表征, 组合泛化

一句话总结¶

提出 LaDA，将 7-DoF 机器人动作解耦为平移/旋转/夹爪三类运动原语并与语言语义建立对应，通过软标签对比学习和自适应损失加权，以 1.3B 参数在 LIBERO 上达到 93.6% 平均成功率。

研究背景与动机¶

视觉-语言-动作的异构性: 机器人操作中，高级视觉-语言理解（「拿起红色杯子」）与低级运动控制（关节角度/速度）存在巨大语义鸿沟
现有方法的局限: 多数 VLA 方法将动作作为不可解释的 7 维向量直接预测，忽略了动作内部的结构化语义
共享运动原语未被利用: 不同任务共享相似的运动原语（如「向前推」「向右旋转」「夹紧」），现有方法无法跨任务复用这些原语
组合泛化的需求: 在新任务中，如果能将已学习的运动原语组合使用，将大幅提升泛化能力
语言与运动的自然对应: 语言描述中的动词（push, pull, rotate）自然对应特定类型的运动原语，这种对应关系可以被显式建模
核心idea: 将 7-DoF 动作解耦为 translation/rotation/gripper 三类原语，通过语言建立每类原语的语义基础，以实现组合泛化

方法详解¶

整体框架¶

LaDA 包含三个核心模块：

动作解耦: 将 7-DoF (\(\Delta x, \Delta y, \Delta z, \Delta r_x, \Delta r_y, \Delta r_z, g\)) 分解为平移、旋转、夹爪三类运动原语
语言对齐: 通过软标签对比学习将每类运动原语与语言语义空间对齐
自适应损失加权: 平衡三个解耦分支的训练进度

关键设计 1: 运动原语解耦¶

平移原语: \([\Delta x, \Delta y, \Delta z]\)，对应空间位移
旋转原语: \([\Delta r_x, \Delta r_y, \Delta r_z]\)，对应姿态变化
夹爪原语: \([g]\)，对应抓取/释放动作
每类原语用独立的 action head 预测，共享视觉-语言 backbone
解耦使模型能学到更纤细的动作语义

关键设计 2: 软标签对比学习¶

不像传统对比学习用 0/1 硬标签，而是用语言指令之间的语义相似度作为软标签
例如：「push the red cup」和「push the blue cup」的平移原语应该相似，因为两者的「push」语义接近
语义相似度通过 sentence embedding 的余弦相似度计算
这种设计让模型学会：语义相似的指令应该产生相似的运动原语

关键设计 3: 自适应损失加权¶

三个原语分支的损失尺度和训练难度不同（如旋转通常比平移难预测）
动态调整每个分支的损失权重，避免某个分支主导训练进程
确保平移/旋转/夹爪三者的训练进度均衡发展

实验关键数据¶

主实验 (LIBERO Benchmark)¶

任务套件	LaDA (1.3B)	CLIP-RT (2.6B)	OpenVLA	RoboFlamingo
Spatial	96.4%	—	—	—
Object	97.8%	—	—	—
Goal	88.4%	—	—	—
Long-horizon	86.4%	—	—	—
Average	93.6%	~89%	~85%	~82%

LaDA 参数量仅 1.3B，是 CLIP-RT 的一半

消融实验¶

配置	平均 SR	说明
完整 LaDA	93.6%	全部组件
无解耦（统一预测）	~88%	7-DoF 统一预测
无软标签（硬标签对比）	~90%	0/1 硬标签
无自适应加权	~91%	固定权重
无语言对齐	~87%	仅用回归损失

关键发现¶

语言对齐是最大贡献因子（去掉后 -6.6pp）
动作解耦贡献 +5.6pp，说明结构化分解对性能有显著帮助
软标签 vs 硬标签的差距 (+3.6pp) 证明了语言相似度作为监督信号的有效性
LaDA 以少一半参数超越 CLIP-RT，说明动作解耦+语言对齐比单纯增大模型更有效

亮点与洞察¶

运动原语与语言的自然对应: 充分利用了人类语言描述运动的自然结构，设计优雅
软标签的精妙设计: 语义相似度作为对比学习的软监督信号，比硬标签更细腑
高效性: 1.3B 参数达到 SOTA，验证了结构化设计比暴力增大模型更有效
组合泛化潜力: 解耦的三类原语可以“拼装”出新任务所需的动作

局限性¶

仅在 LIBERO 仿真环境中验证，真实机器人实验缺失
平移/旋转/夹爪的三元分解是针对 7-DoF 的特定设计，对更复杂的机器人（如灵巧手）需要重新设计原语
Long-horizon (86.4%) 仍有提升空间，说明对长序列的组合推理还不够强
未探讨负迁移问题——某些相似但不同的运动原语可能相互干扰

相关工作与启发¶

CLIP-RT: 用 CLIP 对齐视觉-语言-动作，但未解耦动作结构，参数量 2.6B
OpenVLA: 通用 VLA 模型，直接预测原始动作向量
启发: 动作解耦思路可以推广到更广泛的具身智能任务，如导航、逼真角色动画等

评分¶

新颖性: ⭐⭐⭐⭐ — 运动原语解耦+语言对齐的组合思路新颖
实验充分度: ⭐⭐⭐☆ — 消融详细但缺少真机实验
写作质量: ⭐⭐⭐⭐ — 动机清晰，方法直观
实用性: ⭐⭐⭐☆ — 模型小且高效，但仅限仿真
综合推荐: ⭐⭐⭐⭐