Language-Grounded Decoupled Action Representation for Robotic Manipulation¶

会议: CVPR 2026 arXiv: 2603.12967 代码: 无领域: 机器人

一句话总结¶

提出 LaDA 框架，将连续 7-DoF 机器人动作解耦为语言描述的可解释运动基元（平移、旋转、夹爪），通过语义引导的软标签对比学习统一视觉-语言-动作表示空间，实现跨任务泛化。

背景与动机¶

高层语义与低层控制的异质性鸿沟：当前 VLA 模型在视觉-语言理解和精细动作控制之间缺乏有效桥梁，高层语义指令（如"倒水"）难以直接映射为精确的运动参数。
共享运动基元未被利用：语义不同的任务（如"倒水"和"放瓶子"）往往共享底层运动基元（伸手、抓取、旋转），现有模型无法复用这些共享结构，导致冗余学习和跨任务泛化差。
现有范式的固有缺陷：
端到端 VLA：感知与控制耦合，缺乏可解释性和运动结构复用
隐式动作学习：潜空间由视觉差异定义，缺乏显式语义，跨任务迁移受限
语言条件策略：依赖粗粒度离散基元（如"向前移动"），缺少精细运动参数（平移量、旋转角度）
缺乏语义接地层：根本原因在于符号意图与连续执行之间缺少语义基础层，语言天然适合承担这一角色。

方法详解¶

3.1 总体架构¶

LaDA 使用语言作为语义桥梁，将视觉、语言和动作统一在共享嵌入空间中。核心流程为：动作解耦 → 语义对比学习 → 自适应加权 → 微调推理。

3.2 语言接地的动作解耦 (Language-Grounded Action Decomposition)¶

将每个 7-DoF 末端执行器动作 \(\mathbf{a}_t\) 投影为三类可解释运动基元 \(\Pi: \mathbf{a}_t \mapsto \mathbf{p}_t\)：

基元类型	符号	语言模板示例
平移基元	\(\Delta T\)	"Move [dist] meters along [dir]"
旋转基元	\(\Delta R\)	"Rotate [mag] degrees around [axis]"
夹爪基元	\(G\)	"Open" / "Close"

每个基元被离散化为语言对齐的类别，将连续控制轨迹转化为可解释的语义类别。这种解耦在低层运动学与高层语义之间建立桥梁，支持跨任务对齐与组合式泛化。

3.3 语义引导的对比学习¶

软标签相似度构建¶

构建软标签相似度矩阵 \(S \in [0,1]^{N \times N}\)，编码基元级别的语义亲和度：

\[S = \frac{w_t M_t + w_r M_r + w_g M_g}{w_t + w_r + w_g}\]

其中 \(M_t\)、\(M_r\)、\(M_g\) 分别为平移、旋转、夹爪的二值匹配矩阵，\((w_t, w_r, w_g)\) 为超参数。每个 \(S_{ij}\) 表示动作 \(i\) 与 \(j\) 之间细粒度的基元级语义相似度。

双路径软标签对比学习¶

使用预训练 CLIP 编码器提取视觉 token \(v_i = f_v(V_i)\) 和语言 token \(l_i = f_l(L_i)\)，通过 FiLM 融合并用 MLP 投影：\(A_i = \text{MLP}(\text{FiLM}(v_i, l_i))\)。

路径一：动作-动作对齐，使共享基元属性的动作在嵌入空间中更近：

\[\mathcal{L}_a = -\sum_{i=1}^N \sum_{j=1}^N S_{ij} \log \frac{\exp(\text{sim}(A_i, A_j) / \tau)}{\sum_{k=1}^N \exp(\text{sim}(A_i, A_k) / \tau)}\]

路径二：动作-基元对齐，将每个动作锚定到其基元语言描述 \(P_j = f_l(\mathcal{D}(p_j))\)：

\[\mathcal{L}_m = -\sum_{i=1}^N \sum_{j=1}^N S_{ij} \log \frac{\exp(\text{sim}(A_i, P_j) / \tau)}{\sum_{k=1}^N \exp(\text{sim}(A_i, P_k) / \tau)}\]

总对比损失：\(\mathcal{L}_{\text{CL}} = \mathcal{L}_a + \lambda \mathcal{L}_m\)

3.4 自适应损失加权¶

模仿损失 \(\mathcal{L}_{\text{IL}}\)（预测离散化基元类别）与对比损失 \(\mathcal{L}_{\text{CL}}\) 具有不同收敛特性。使用滑动平均自适应加权：

\[w_{\text{IL}} = \frac{\text{MA}(\mathcal{L}_{\text{IL}})}{\text{MA}(\mathcal{L}_{\text{IL}}) + \text{MA}(\mathcal{L}_{\text{CL}})}, \quad w_{\text{CL}} = \frac{\text{MA}(\mathcal{L}_{\text{CL}})}{\text{MA}(\mathcal{L}_{\text{IL}}) + \text{MA}(\mathcal{L}_{\text{CL}})}\]

最终目标：\(\mathcal{L}_{total} = w_{\text{CL}} \mathcal{L}_{\text{CL}} + w_{\text{IL}} \mathcal{L}_{\text{IL}}\)

3.5 微调与推理¶

预训练后使用轻量 MLP 动作头进行 7-DoF 动作预测的微调（\(\mathcal{L}_1\) 轨迹回归损失）。推理时直接从 \((V_t, L_t)\) 输出连续动作，无需显式基元标签。

实验结果¶

预训练数据¶

使用 Open X-Embodiment (OXE) 数据集，约 2250 万视觉帧，涵盖 22 种机器人形态，每个动作为 7-DoF 控制向量。

LIBERO 基准测试¶

模型	参数量	Spatial	Object	Goal	Long	平均
UniACT	0.5B	65.0	78.0	68.0	47.0	64.5
OpenVLA	7.5B	84.7	88.4	79.2	53.7	76.5
π-FAST	2B	96.4	96.8	88.6	60.2	85.5
FlowVLA	8.5B	93.2	95.0	91.6	72.6	88.1
CLIP-RT	1.3B	95.2	99.2	94.2	83.8	93.1
LaDA	0.6B	95.2	99.2	93.6	86.4	93.6

LaDA 仅用 0.6B 参数即取得 93.6% 平均成功率（SOTA），在 LIBERO-Long 上尤为突出（86.4%），超过参数量大数倍的模型。

MimicGen 基准测试¶

模型	C_D0	C_D1	S_D0	S_D1	ST_D0	ST_D1	T_D0	TPA_D0	TPA_D1	平均
OpenVLA	42%	18%	84%	86%	36%	20%	20%	28%	8%	38%
Phoenix	94%	48%	96%	86%	50%	20%	68%	52%	6%	58%
CLIP-RT*	77%	34%	93%	87%	68%	52%	32%	11%	4%	51%
LaDA	94%	46%	96%	95%	76%	71%	48%	50%	25%	67%

LaDA 平均成功率 67%，比 Phoenix 高 9%，比 CLIP-RT* 高 16%，在多步长任务（StackThree_D1: 71%）上优势显著。

消融实验¶

方法	Spatial	Object	Goal	Long	平均
w/o SCL	79.2	82.8	76.6	63.4	75.5
w/o AW	93.6	94.4	87.2	74.4	87.4
LaDA	95.2	99.2	93.6	86.4	93.6

去除软标签对比学习（SCL）导致性能骤降 18.1%，验证了细粒度语义对齐的关键作用；去除自适应加权（AW）也降低 6.2%。

泛化能力¶

在跨任务泛化测试中，CLIP-RT* 对未见过的"push"指令成功率为 0%，而 LaDA 达到 12.3%。在多任务训练场景中，LaDA 从多任务联合训练中获得显著收益，而 CLIP-RT 仅有边际提升。

亮点¶

语言作为语义桥梁的创新视角：将语言从任务指令提升为连接感知与控制的通用接口，实现动作的语义接地
细粒度可解释基元：不同于粗粒度的"向前移动"，LaDA 的基元包含精确运动参数（距离、角度），实现真正的语义-控制对齐
参数效率极高：0.6B 参数超越 7B+ 的大模型（OpenVLA、CoT-VLA），性能/参数比极优
软标签对比学习：突破硬正负样本对的局限，通过连续亲和度权重捕捉细粒度运动对应关系
多基准全面验证：覆盖 LIBERO（语言条件多任务）、MimicGen（接触密集操控）及真机部署

局限性¶

依赖预定义基元离散化：平移/旋转的离散化粒度是超参数，可能难以覆盖所有精细运动需求
真机实验规模有限：仅在单个 pick-and-place 任务上验证，未展示更复杂的真机操控场景
预训练数据依赖：依赖大规模 OXE 数据集进行预训练，数据获取成本较高
泛化上限受限：跨任务泛化虽优于基线但绝对成功率仍较低（12.3%），说明零样本泛化仍是开放问题

评分¶

⭐⭐⭐⭐ 新颖性：语言接地的动作解耦思路新颖，软标签对比学习在机器人动作表示中属首创
⭐⭐⭐⭐ 实用性：0.6B 参数即达 SOTA、框架通用性强，对实际部署友好
⭐⭐⭐⭐ 实验充分度：两个仿真基准 + 真机 + 全面消融 + 泛化测试，覆盖面广
⭐⭐⭐ 写作质量：结构清晰，但部分符号和公式可进一步统一简化