Language-Grounded Decoupled Action Representation for Robotic Manipulation (LaDA)¶
会议: CVPR 2026
arXiv: 2603.12967
代码: 无(未提供)
领域: 机器人操作 / 视觉-语言-动作模型
关键词: [机器人操作, 动作解耦, 语言语义桥梁, 软标签对比学习, 跨任务泛化]
一句话总结¶
提出LaDA框架,将连续7-DoF动作解耦为平移/旋转/夹爪三个语言锚定的语义原语,通过软标签对比学习和自适应权重策略在共享嵌入空间中对齐跨任务动作表示,在LIBERO上达93.6%成功率(0.6B参数),MimicGen上67%平均成功率,超越所有基线。
背景与动机¶
VLA模型在机器人操作取得进展,但高级语义理解和低级动作控制之间存在根本性的异构gap。三类现有范式各有缺陷:(1) 端到端VLA(如OpenVLA/RT-2)将感知和控制耦合,动作不可解释且无法复用共享运动结构;(2) 隐式动作学习(如LAPA/UniSkill)编码动作到紧凑隐空间,但隐空间由观测差异定义、缺乏显式语义;(3) 语言条件策略(如CLIP-RT/PPL)引入语言但用粗粒度离散原语("向前移动"、"关闭夹爪"),缺少精细运动参数(平移幅度、旋转角度)。核心问题:如何构建既有语义接地又可跨任务迁移的动作表示?
核心问题¶
解决VLA模型中语义理解和运动控制的脱节——"倒水"和"放瓶子"共享底层运动原语(到达、抓取、旋转),但现有模型不能利用这些共享结构,导致冗余学习和跨任务泛化差。
方法详解¶
整体框架¶
输入:视觉观测V_t + 语言指令L_t + 7-DoF动作a_t → (1) 动作解耦:将a_t投影为三个语言锚定原语(Δ Translation, Δ Rotation, Gripper)→ (2) 软标签相似度矩阵构建 → (3) 双路径软标签对比学习(Action-Action对齐 + Action-Primitive对齐)→ (4) 自适应权重平衡对比损失与模仿损失 → 预训练后用MLP action head微调做7-DoF动作预测
关键设计¶
- 语言锚定动作解耦(Sec 3.2): 定义投影Π: a_t → p_t,将连续7-DoF动作分解为三类原语,每个用语言模板描述——平移"Move [dist] meters along [dir]"、旋转"Rotate [mag] degrees around [axis]"、夹爪"Open/Close"。原语被离散化为符号类别。关键在于不是简单聚类动作,而是让每个运动分量有独立的、人类可读的语义标签。
- 语义引导软标签对比学习(Sec 3.3): 构建软相似度矩阵S = (w_t·M_t + w_r·M_r + w_g·M_g)/(w_t+w_r+w_g),M_t/M_r/M_g是二元匹配矩阵。双路径InfoNCE:(i) Action-Action对齐——用CLIP视觉+文本编码器提取嵌入,FiLM融合后MLP投影得统一嵌入A_i,按S加权拉近语义相似动作;(ii) Action-Primitive对齐——将每个动作锚定到其原语文本描述的编码P_j。与传统二元正负对不同,软标签允许部分匹配的动作有渐进相似度。
- 自适应损失权重(Sec 3.3.3): 模仿损失L_IL(预测离散化原语类别)和对比损失L_CL在不同语义粒度、不同收敛速率上运作。用移动平均(MA)归一化各自权重:w_IL = MA(L_IL)/(MA(L_IL)+MA(L_CL)),避免任一信号主导优化。灵感来自课程学习。
损失函数 / 训练策略¶
- 预训练:在Open X-Embodiment(OXE)数据集上(~2250万帧,22种机器人),用L_total = w_CL·L_CL + w_IL·L_IL训练
- 微调:用ℓ1轨迹回归损失,轻量MLP头输出连续7-DoF动作
- 推理时不需要显式原语标签,直接从(V_t, L_t)输出动作
实验关键数据¶
| 数据集 | 指标 | LaDA (0.6B) | CLIP-RT (1.3B) | FlowVLA (8.5B) | 提升 |
|---|---|---|---|---|---|
| LIBERO-Spatial | 成功率 | 95.2% | 95.2% | 93.2% | 持平/+2.0 |
| LIBERO-Object | 成功率 | 99.2% | 99.2% | 95.0% | 持平/+4.2 |
| LIBERO-Goal | 成功率 | 93.6% | 94.2% | 91.6% | -0.6/+2.0 |
| LIBERO-Long | 成功率 | 86.4% | 83.8% | 72.6% | +2.6/+13.8 |
| LIBERO-Avg | 成功率 | 93.6% | 93.1% | 88.1% | +0.5/+5.5 |
| MimicGen-Avg | 成功率 | 67% | 51% (CLIP-RT*) | — | +16% |
消融实验要点¶
- 移除软标签对比学习(SCL):LIBERO平均从93.6%降至75.5%,剧烈下降18.1个点,说明语义对齐是核心
- 移除自适应权重(AW):从93.6%降至87.4%,下降6.2个点,说明平衡优化至关重要
- LIBERO-Long降幅最大(SCL消融后从86.4%降至63.4%),长序列任务最依赖跨任务语义共享
- 泛化测试:跨任务设定中CLIP-RT*成功率0%,LaDA达12.3%
- t-SNE可视化显示LaDA形成更紧凑、语义一致的动作嵌入簇
亮点¶
- "语言作为语义桥梁"的核心理念新颖——不是直接端到端映射,而是显式建立动作的语义接口层
- 软标签对比学习巧妙:允许"部分相似"的动作对有梯度化的相似度,比二元正负对精细得多
- 参数效率高:0.6B参数达到甚至超越1.3B~8.5B参数的基线
- 消融实验说服力强:SCL移除后性能骤降18点,证明不是边际改进
- 实机验证(Franka Panda做pick-and-place)虽简单但证明了实际可部署性
局限性 / 可改进方向¶
- 三原语(平移/旋转/夹爪)对灵巧手操作可能不够——高自由度手需要更多运动分量
- 语言模板是手工设计的,自动化原语发现可能更灵活
- 实机实验仅做了pick-and-place单一任务,未在复杂真实任务上验证泛化
- 软相似度矩阵S的权重(w_t, w_r, w_g)是超参,对不同任务域可能需要调整
与相关工作的对比¶
- CLIP-RT: 同样用语言条件控制,但用离散语言token做分类式动作预测,缺少精细运动参数对齐;LaDA用连续软标签对比学习实现更细粒度的语义对齐,且参数减半
- LAPA: 用隐形动作学习从视频中学表示,但隐空间缺乏显式语义;LaDA用语言锚定原语让动作空间可解释
- Phoenix: 引入运动级自反思纠正策略,在MimicGen上58%;LaDA不需自纠正机制,直接67%,高出9个点
启发与关联¶
- 跨模态语义桥梁的通用范式: LaDA用语言桥接视觉和动作,这个思路可以迁移到其他跨模态gap——如用语言桥接2D图像和3D点云的理解,或用语言桥接CT和MRI的多模态医学影像融合
- 软标签对比学习可复用: 在检测/分割中,不同类别的物体可能有"语义相似度"(狗vs猫 > 狗vs汽车),用软标签对比学习可以让特征空间更有结构
- 动作原语自动发现: 未来可以用LLM自动为新任务域生成动作原语描述和分解方案
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 语言锚定动作解耦+软标签对比学习是全新方法论,直击VLA的核心痛点
- 实验充分度: ⭐⭐⭐⭐ LIBERO+MimicGen+实机,消融完整,泛化测试有力;但实机实验偏简单
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述系统化,与三类范式的对比图(Fig.1)直观有效
- 价值: ⭐⭐⭐⭐⭐ 对VLA领域有重要贡献,0.6B参数超越7B+模型,实用性强
与我的研究方向的关联¶
- adaptive_model_routing: 语义引导的任务路由思想类似
- task_aware_token_compression: 任务感知的设计思路可借鉴
- 语义解耦思想可用于多任务密集预测中不同任务特征的解耦
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 对我的价值: ⭐⭐⭐