ES-Merging: Biological MLLM Merging via Embedding Space Signals¶

日期: 2026-03-15
arXiv: 2603.14405
代码: 无
领域: 多模态VLM / 模型压缩
关键词: model merging, MLLM, embedding space, biological, cross-modal

一句话总结¶

提出 ES-Merging，用 embedding space 信号（而非 parameter space 启发式）估计 merging 系数，在 layer-wise 粗粒度和 element-wise 细粒度两个层面融合生物领域的分子/蛋白质/细胞三个 MLLM，在跨模态交互预测任务上超越所有现有 merging 方法甚至超过 task-specific fine-tuned 模型。

研究背景与动机¶

领域现状: 生物领域已有针对分子（Mol-LLaMA）、蛋白质（Prot2Text-V2）、细胞（Cell-o1）的专用 MLLM，但它们各自只理解单一模态。许多科学问题（如药物-蛋白互作、药物-细胞效应）本质上是跨模态的。
现有痛点: 联合训练跨模态模型需要昂贵的跨模态数据集构建。Model merging 是一种高效替代，但现有方法（TIES-Merging、EMR-Merging 等）都基于 parameter space 信号（权重大小、符号、方向）启发式分配系数——这些信号是 input-agnostic 的，无法捕捉模态特化的真实语义。
核心矛盾: Parameter space 信号只是间接代理，不知道每个参数对特定模态的贡献有多大；而理想的 merging 系数应该反映每个参数在处理特定模态输入时的重要性。
切入角度: 作者观察到，当不同模态 token 通过 base LLM 和 specialized MLLM 时，embedding 分布有显著差异，且差异大小和模态是否匹配高度相关（Fig.2）。这说明 embedding space 包含了模态特化的信息。
核心 idea: 从 embedding space 的分布变化估计 merging 系数——哪个 MLLM 在哪一层对哪种模态的 embedding 改变最大，就给它更高的权重。

方法详解¶

整体框架¶

设计 probe input（包含各模态 token）→ 分别过 base LLM 和各 MLLM 获取逐层 embedding → 从粗粒度（layer-wise SWD 距离变化）和细粒度（element-wise 梯度）两个层面估计 merging 系数 → 组合为最终系数 → 加权合并 LoRA 参数。

关键设计¶

Probe Input 设计:
- 做什么：构造一个包含所有模态 token 的探测输入
- 核心思路：收集每种模态的样本，用各自 encoder 映射到 embedding space，拼接为 [text_m1; H_m1; text_m2; H_m2; ...]
- 设计动机：要比较 base 和 specialized 模型的 embedding 差异，需要一个统一输入——probe input 让所有模型处理相同的多模态输入，从而公平比较
Layer-wise Global Merging Coefficient:
- 做什么：估计每层整体上哪个模型更重要
- 核心思路：将各模态 token 的 embedding 做 mean pooling 得到粗粒度表示，用 Sliced Wasserstein Distance (SWD) 衡量 base 和 specialized 模型在每层的分布距离。计算层间增量 \(d^l = \text{SWD}^l - \text{SWD}^{l-1}\)（哪些层新引入了更多模态特化），Z-score 归一化后 softmax 得到 \(\alpha_{m_j}^l\)
- 设计动机：SWD 直接度量分布距离，增量形式捕捉"在哪一层发生了关键特化"，比绝对值更有信息量
Element-wise Local Merging Coefficient:
- 做什么：在每层内部，估计每个参数元素的重要性
- 核心思路：计算 embedding 距离 \(r = \|H_\text{base} - H_\text{specialized}\|_F\) 对每个 LoRA 参数的梯度绝对值，累加所有模态和 probe 样本的梯度，归一化后 softmax 得到 \(\beta_{m_j}^{l,n}\)
- 设计动机：同一层内不同参数对模态特化的贡献差异很大，fine-grained 系数捕捉这种差异
系数组合:
- \(\lambda_{m_i}^{l,n} = \frac{\alpha_{m_i}^l \cdot \beta_{m_i}^{l,n}}{\sum_m \alpha_m^l \cdot \beta_m^{l,n}}\)
- 乘积 + 归一化，结合两个粒度的信息

训练策略¶

无需额外训练！系数估计是基于 forward pass + gradient 计算的，不需要迭代优化
只需少量 probe samples（论文用 K 个）即可估计

实验关键数据¶

主实验（跨模态交互预测）¶

方法	Molecule-Protein Avg Acc	Molecule-Cell Avg Acc
Base LLM	57.5	79.3
Best single MLLM	61.2	81.1
Avg Merging	64.2	78.9
TIES-Merging	60.7	80.3
EMR-Merging	63.8	69.3
PCB-Merging	58.0	81.7
Avg Merging + FT	57.8	87.5
ES-Merging	65.7	87.4

消融实验¶

配置	Avg Acc	说明
Layer-wise only	65.0	只用粗粒度
Element-wise only	64.8	只用细粒度
Layer + Element (ES-Merging)	65.7	组合最优

关键发现¶

ES-Merging 在 molecule-protein 交互上不仅超越所有 merging 方法，还超越了 Avg Merging + FT（task-specific fine-tuned），说明 embedding-aware 系数比暴力 fine-tune 更准
单模态 MLLM 在非本模态任务上常常大幅退步（如 Prot2Text 在 molecule-protein 的 Human 子集只有 47.2%），而 merging 后统一模型全面提升
Layer-wise 和 element-wise 缺一不可，组合比单独使用各高 0.7-0.9%

亮点与洞察¶

Paradigm shift: 把 model merging 从 parameter space 拉到 embedding space，利用 input-aware 的信号估计系数，思路干净且有理论支撑
无训练: 不需要额外优化过程，只需 forward + backward 即可估计系数，非常高效
超越 fine-tuned 模型: 在某些任务上 merging 甚至比专门 fine-tune 好，说明好的 merging 策略能保留更多互补知识

局限性 / 可改进方向¶

只在 LLaMA-3.1-8B + LoRA 设置下验证，对 full fine-tune 或不同规模模型的泛化性未知
生物领域的实验设置较为 niche，在更广泛的视觉/语言多任务 merging 上是否同样有效需要验证
SWD 和梯度计算需要对每个 probe sample 做完整 forward + backward，probe sample 数量对结果的敏感性未充分分析
温度参数 \(\tau\) 在 softmax 中的影响未讨论

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从 parameter space 到 embedding space 的范式转变，是 model merging 领域的新方向
实验充分度: ⭐⭐⭐⭐ 生物跨模态任务覆盖全面，但缺少 NLP/CV 通用场景验证
写作质量: ⭐⭐⭐⭐ 动机 figure 清晰，公式规范
价值: ⭐⭐⭐⭐ 对 model merging 社区有启发，embedding-aware 思路可广泛应用