MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent¶

会议: CVPR 2026
arXiv: 2511.18810
代码: 无
领域: 机器人/具身智能
关键词: VLA模型合并, 多技能机器人, 稀疏LoRA掩码, 动作专家重设计, 测试时任务路由

一句话总结¶

首次系统诊断 VLA 模型不可合并的两大根因（LoRA 自私参数冲突 + 动作专家自注意力导致的任务耦合），提出 MergeVLA——通过任务掩码稀疏激活 LoRA、去自注意力动作专家、无训练测试时路由，将多个单技能 VLA 专家合并为一个通用 agent，在 LIBERO 上达 90.2% 成功率，真机 SO101 达 90%。

研究背景与动机¶

领域现状：Vision-Language-Action (VLA) 模型通过将大规模 VLM 在百万级机器人演示数据上微调，在单任务/单具身设定下表现出色。然而真实世界的通用 agent 需要支持多种技能、多种具身形态和多种环境，自然的想法是把多个独立微调的 VLA 专家合并为一个统一策略。

核心痛点：模型合并（Model Merging）在 LLM/VLM 领域已有成熟方法（Task Arithmetic、TIES、DARE 等），但直接应用于 VLA 时，合并后成功率直接降为 0%——这在 LLM 合并中从未出现过。

根因诊断（本文核心贡献之一）：

LoRA 自私参数问题：对 LIBERO 的4个任务做 LoRA 微调后，>75% 的参数属于"自私参数"（仅被单个任务掩码保留），说明不同任务将 LoRA 推向高度不相交的方向。直接平均/符号合并会激活不相关甚至矛盾的参数，破坏共享视觉-语言子空间。

动作专家架构不兼容：即使 VLM 完美合并，仅对动作专家做权重平均仍然得到 0% 成功率。根源在于动作专家从零训练、含自注意力层，自注意力使任务信息跨层累积传播，导致深层参数高度任务特化、不可重组。

切入角度：既然问题出在"架构天生不可合并"，那就从架构层面设计"天生可合并"的 VLA。

方法详解¶

整体框架¶

MergeVLA 包含三个互补组件：

任务掩码稀疏 LoRA（解决 VLM 中 LoRA 参数冲突）
去自注意力动作专家（解决动作专家架构不兼容）
无训练测试时任务路由（解决推理时不知任务身份的问题）

基座 VLM 为 Qwen2.5-0.5B，动作专家基于 VLA-Adapter 架构改造，总参数约 0.7B。

关键设计 1：任务掩码稀疏 LoRA¶

问题：M 个任务的 LoRA 更新 \(\tau_m = \Theta_m - \Theta_0\) 合并为 \(\tau_{\text{merge}}\) 后充满冲突。

方案：为每个任务 m 构造二值掩码 \(\mathbf{S}_m\)，选择性激活合并参数中对任务 m 有益的部分：

\[\Theta_{\text{merge}}^{(m)} = \Theta_0 + \mathbf{S}_m \odot \tau_{\text{merge}}\]

掩码通过参数级一致性检验生成：

\[\mathbf{S}_m = \mathbb{I}\left[|\tau_m| > \lambda |\tau_{\text{merge}} - \tau_m|\right]\]

直觉：仅保留任务自身更新幅度大于且与合并更新方向一致的参数，\(\lambda\) 控制稀疏度。实验中 \(\lambda=0.6\) 效果最佳。此机制的副作用是让部分 LoRA 参数回退到预训练权重，反而保护了原始视觉-语言表征。

关键设计 2：去自注意力动作专家¶

问题：VLA-Adapter 的动作专家含 L 个 Transformer 块（自注意力 + 交叉注意力 + FFN），从零训练。自注意力使任务依赖跨层传播，深层参数距离爆炸式增长。

两处改动：

去除自注意力：仅保留交叉注意力路径，迫使专家依赖 VLM 提供的鲁棒共享特征，而非自身从零学到的（高度任务特化的）表征。
sigmoid 替代 tanh 门控：原始 tanh 门控可产生负值抑制 VLM 信号，sigmoid 保证 VLM 信息始终被保留和正向传递。

层级合并策略：浅层块参数差异小，直接权重平均即可；深层（通常仅最后1块，称 expert head）由于回归目标导致高度特化，保留不合并，每个任务独占一个 expert head。

意外收益：去自注意力设计使模型在 OOD 场景（LIBERO-Plus）上比 VLA-Adapter 成功率高出 13.4%，说明更好地利用了 VLM 的预训练鲁棒性。

关键设计 3：无训练测试时任务路由¶

在推理时任务身份未知的情况下，路由器需从初始观测自动选择对应的任务掩码和 expert head。

流程：

对每个候选任务 m，用掩码 \(\mathbf{S}_m\) 运行 VLM 获取隐状态
对合并动作专家第 l 块的值投影矩阵做 SVD，取前 \(k_r=8\) 个右奇异向量构成主子空间
将各任务隐状态投影到此子空间，计算响应强度 \(r_m\)
softmax 选择得分最高的任务，固定该掩码和 expert head 用于整个 episode

设计选择：实验证明值投影（V）子空间比键投影（K）更稳定可区分——V 编码实际行为语义，K 定义查询相似性结构，更容易坍缩到任务特化子空间。

训练策略¶

每个任务独立微调（LoRA + 动作专家从零训练），50 条演示/任务，单卡 A6000（48GB）
合并阶段完全离线：合并 LoRA → 计算掩码 → 平均动作专家浅层 → 保留 expert head
路由器无需训练，纯基于 SVD 的参数子空间分析
默认 \(l=L\), \(k_r=8\), \(\lambda=0.6\), \(\alpha=1\)

实验关键数据¶

主实验：LIBERO 成功率 (%)¶

方法	Spatial	Object	Goal	Long	平均
OpenVLA（独立微调）	84.7	88.4	79.2	53.7	76.5
VLA-Adapter（独立微调）	99.6	99.6	98.2	96.4	98.5
MergeVLA（独立微调）	98.0	98.6	95.0	95.0	96.7
OpenVLA + TA（全部合并）	0.0	0.0	0.0	0.0	0.0
OpenVLA + TA + 掩码	74.2	82.6	68.8	24.0	62.4
VLA-Adapter + TA + 掩码	0.0	0.0	0.0	0.0	0.0
MergeVLA + TIES + 掩码	94.8	94.6	91.8	79.4	90.2
MergeVLA + TA + 掩码	98.0	98.8	85.4	76.6	89.7

OOD 鲁棒性：LIBERO-Plus 成功率 (%)¶

方法	背景	视角	指令	光照	布局	机器人状态	噪声	平均
π₀（独立微调）	81.4	13.8	58.8	85.0	68.9	6.9	79.0	56.3
VLA-Adapter（独立微调）	76.6	36.4	73.8	71.0	70.2	37.4	57.2	59.0
MergeVLA（独立微调）	92.7	62.4	75.7	92.7	73.7	46.4	74.7	72.4
MergeVLA + TIES 合并	85.7	50.7	66.0	84.2	68.1	30.3	66.0	62.5

消融：路由子空间选择（LIBERO 成功率 %）¶

子空间	Spatial	Object	Goal	Long	平均
仅 K	98.0	0.0	39.6	76.6	53.6
K & V	98.0	0.0	85.8	76.6	65.1
仅 V	98.0	98.8	85.4	76.6	89.7

真机 SO101 成功率 (%)¶

方法	Pick & Place	Push	Stack	平均
独立微调	90.0	85.0	95.0	90.0
MergeVLA + TA	70.0	70.0	60.0	66.7
MergeVLA + TIES	90.0	90.0	90.0	90.0

关键发现¶

两个根因缺一不可：仅加掩码不改架构（VLA-Adapter + TA + S）仍 0%；仅改架构不加掩码同样失败
去自注意力带来意外 OOD 收益：MergeVLA 独立微调就比 VLA-Adapter 在 LIBERO-Plus 上高 13.4%
合并后 ≈ 独立微调：TIES 合并在真机上完全匹配独立微调性能（90% vs 90%）
跨具身泛化：RoboTwin 上 3 种双臂机器人 × 3 种任务，TIES 合并达 70.7%
路由精度：值投影子空间路由远优于键投影（89.7% vs 53.6%）
掩码稀疏度：\(\lambda \in [0.6, 0.9]\) 最优，过小导致冲突参数涌入，过大丢失有用信息

亮点与洞察¶

"VLA 不可合并"的系统诊断——首次揭示 LoRA 自私参数（>75%）和自注意力任务耦合两个独立根因，诊断本身就是重要贡献
架构即可合并性——不是设计更好的合并算法，而是从架构层面消除不可合并性，思路优雅且可推广到其他多模态领域
去自注意力的意外收益——原本为了可合并性做的改动，却带来了更好的 OOD 泛化，说明让动作专家"信任 VLM"比"自主学习"更鲁棒
无训练路由——用 SVD 主成分做任务判别，既优雅又实用，无需额外训练数据或辅助网络
从仿真到真机全链路验证——LIBERO / LIBERO-Plus / RoboTwin / 真机 SO101 四重验证，覆盖跨任务、跨环境、跨具身三个维度

局限与展望¶

无法在线增量合并：新任务加入需重新计算掩码和合并，不支持即插即用
VLM 规模受限：仅验证了 Qwen2.5-0.5B，更大模型（如 7B+）是否同样适用待探索
Expert head 数量线性增长：每个任务保留独立的 expert head，任务数多时参数冗余
去自注意力可能限制需要长时序推理的任务：当前仅测试了相对短时序的桌面操作
路由依赖初始观测：仅用 t=0 的观测做路由，若初始帧不具区分性可能失败
改进方向：在线增量掩码更新；可学习的轻量路由器替代 SVD；大规模 VLM 验证；expert head 压缩或共享

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统解决 VLA 合并问题，诊断+设计思路优雅
实验充分度: ⭐⭐⭐⭐⭐ 3 仿真基准 + 真机 + 大量消融 + OOD 评估
写作质量: ⭐⭐⭐⭐⭐ 诊断→方案→验证逻辑严密，图表清晰
价值: ⭐⭐⭐⭐⭐ 为具身 AI 多技能扩展提供了可行的轻量化路径