跳转至

Model Merging in the Essential Subspace

会议: CVPR 2026
arXiv: 2602.20208
代码: 无
领域: LLM效率
关键词: 模型合并, 主成分分析, 本质子空间, 极化缩放, 低秩分解

一句话总结

提出 ESM 框架,通过对参数更新引起的激活偏移做 PCA 构建"本质子空间"(而非直接对参数做 SVD),并用三级极化缩放增强关键参数、抑制噪声,在 ViT-B/32 的 20 任务合并中比 Iso-CTS 提升 3.2%(绝对准确率)。

研究背景与动机

  1. 领域现状:模型合并将多个基于同一预训练 checkpoint 微调的专家模型融合为一个多任务模型,无需重训。近期 SVD-based 方法(TSV-M, Iso-CTS)通过对任务矩阵做 SVD 截断来减少干扰,取得了较好效果。
  2. 现有痛点:SVD 分解最小化的是参数矩阵 \(\Delta W\) 的 Frobenius 范数重建误差,但忽略了输入特征分布。截断误差为 \(\sum_{i=k+1}^r \sigma_i^2 \cdot \mathbb{E}[(v_i^\top x)^2]\)——即使 \(\sigma_i\) 小,如果输入在 \(v_i\) 方向投影大,截断仍导致严重的功能损失。
  3. 核心矛盾:SVD 子空间与任务的特征空间不对齐,导致低秩合并时丢弃了功能上重要的方向;同时大量任务合并时,噪声参数可能淹没关键知识。
  4. 本文要解决什么? (1) 构建更本质的、与特征分布对齐的低秩子空间;(2) 在合并过程中增强高信噪比参数、抑制噪声。
  5. 切入角度:不直接分解参数矩阵,而是对参数更新引起的激活偏移 \(\Delta O = X_{\text{proxy}} \Delta W^\top\) 做 PCA,得到与任务功能直接相关的主方向。同时观察到参数范数与方向重要性高度相关。
  6. 核心idea一句话:在激活偏移的主成分空间(而非参数的奇异值空间)中做低秩分解和合并,并用极化缩放放大共识信号。

方法详解

整体框架

输入:预训练权重 \(\theta_0\) + \(T\) 个微调专家权重。输出:合并模型 \(\theta_M\)。方法分两大模块:(1) Essential Subspace Decomposition (ESD) — 对每个任务的参数更新矩阵在激活偏移主方向上做低秩分解;(2) Polarized Scaling (PS) — 三级缩放(任务间、维度间、层间)增强高信号参数。最终合并公式 \(\theta_M^{(\ell)} = \theta_0^{(\ell)} + \alpha \cdot \beta_\ell \cdot \Delta W_{\text{merged}}^{(\ell)}\)

关键设计

  1. 本质子空间分解 (Essential Subspace Decomposition, ESD):
  2. 做什么:构建与任务特征分布对齐的低秩子空间
  3. 核心思路:用 32 个无标签代理样本做前向传播,计算激活偏移 \(\Delta O = X_{\text{proxy}} \Delta W^\top \in \mathbb{R}^{n \times d_{\text{out}}}\),对 \(\Delta O\) 做 PCA 得到特征向量 \(P = [p_1, ..., p_{d_{\text{out}}}]\)。将 \(\Delta W\) 投影到 \(P\) 上得坐标矩阵 \(A = P^\top \Delta W\),截断保留 top-\(k\)\(\widehat{\Delta W} = \hat{P} \hat{A}\)。截断误差为 \(\sum_{i=k+1}^{d_{\text{out}}} \lambda_i\),仅取决于丢弃的特征值,与输入分布解耦
  4. 设计动机:SVD 截断误差还含 \(\mathbb{E}[(v_i^\top x)^2]\) 权重,无法保证功能最优;ESD 直接在输出激活空间中分解,保证丢弃的是功能上最不重要的方向。实验显示 ESD 在保留 5% 成分时 CKA 相似度远高于 SVD

  5. 本质子空间合并 (ESM) 三步流程:

  6. 做什么:将多个任务的 ESD 低秩因子正交融合
  7. 核心思路:(a) 分解截断:每个任务分配 rank 预算 \(k = \lfloor d_{\text{out}} / T \rfloor\);(b) 拼接:横向拼接基矩阵 \(P_{\text{cat}} = [\hat{P}_1 | ... | \hat{P}_T]\),纵向拼接坐标 \(A_{\text{cat}}\);(c) 正交化:对 \(P_{\text{cat}}\)\(A_{\text{cat}}\) 分别做 SVD 白化 \(\tilde{P} = U_P V_P^\top\), \(\tilde{A} = U_A V_A^\top\),消除跨任务子空间相关性
  8. 设计动机:不同任务的 ESD 基不一定正交,直接拼接会引入干扰;白化操作使基向量最大化去相关

  9. 三级极化缩放 (Polarized Scaling, PS):

  10. 做什么:放大高置信度参数、抑制噪声参数
  11. 核心思路:缩放因子均为 (相对范数)² 的形式:
    • 任务间缩放 \(s_t^{(\ell)} = (|\hat{A}_t^{(\ell)}|_F / \mathbb{E}_i[|\hat{A}_i^{(\ell)}|_F])^2\):防止重要任务信号被大量弱任务噪声淹没
    • 维度间缩放 \(c_j^{(\ell)} = (|\mathbf{a}_j^{(\ell)}|_2 / \mathbb{E}_i[|\mathbf{a}_i^{(\ell)}|_2])^2\):增强跨任务共识强的输入维度
    • 层间缩放 \(\beta_\ell = (|\Delta W_{\text{merged}}^{(\ell)}|_F / \mathbb{E}_{i \in \mathcal{L}_{\text{type}}}[|\Delta W_{\text{merged}}^{(i)}|_F])^2\):仅在同类型层间比较(如所有 QKV 层),避免残差连接导致的跨层竞争
  12. 设计动机:实验(Figure 3-4)验证了高范数参数对应高置信度方向——按高范数优先顺序加载参数始终表现最好,即使归一化范数后仍然如此,说明是方向质量而非幅度在起作用

损失函数 / 训练策略

ESM 不涉及训练,仅需 32 个无标签代理样本做一次前向传播。合并系数 \(\alpha\) 在验证集上选择。总额外开销极小:ViT-B/16 上 PCA 1.39s/task + 正交化 13.89s(一次性)。

实验关键数据

主实验

ViT-B/16,平均绝对准确率 (%)

方法 8 tasks 14 tasks 20 tasks
Task Arithmetic 75.4 70.5 65.8
TSV-M 89.0 84.6 80.6
Iso-CTS 91.1 86.4 82.4
ESM (Ours) 91.8 87.4 84.9

ViT-L/14,平均绝对准确率 (%)

方法 8 tasks 14 tasks 20 tasks
TSV-M 93.0 89.2 87.7
Iso-CTS 94.7 91.0 90.1
ESM (Ours) 94.8 91.3 90.4

消融实验

分解方式 PS ViT-B/16 8tasks ViT-B/16 20tasks 说明
SVD 89.0 80.6 基线(TSV-M)
SVD 全部 89.6 82.1 PS 对 SVD 也有效
ESD 90.9 82.8 ESD 本身提升 +1.9/+2.2
ESD 仅层间 91.4 83.7 层间缩放贡献最大
ESD 全部 91.8 84.9 三级缩放进一步提升

关键发现

  • ESD 的能量集中度远高于 SVD:保留更少成分就能捕获同等能量,且 CKA 相似度显著更高
  • 极化缩放是通用模块:即使用在 SVD 分解上也能提升 1.5%,说明范数缩放的思路具有普适性
  • 代理数据集的组成对结果影响极小:OOD 数据(ImageNet-1k)与 ID 数据性能几乎相同(差异 <0.1%),甚至单类别采样也不影响,说明激活偏移的主方向具有输入不变性
  • 仅 4 个代理样本就能稳定优于 SVD 基线
  • 反向缩放(reciprocal)导致严重性能下降(-5%+),验证了"高范数=高重要性"的假设

亮点与洞察

  • SVD vs ESD 的对比极具说服力:从理论(截断误差公式的区别)到实验(能量集中度、CKA)全方位论证了"在激活偏移空间分解优于在参数空间分解"。核心 insight 是模型合并应关注功能性影响而非参数能量
  • 代理数据集的鲁棒性令人惊讶:即使用完全 OOD 的数据做 PCA,效果也几乎不变。这暗示微调模型的激活偏移主方向是一种内在属性,与输入数据无关——这本身就是一个有趣的发现
  • 极化缩放设计简洁高效:(相对范数)² 的简单公式就实现了"放大信号、压缩噪声"的效果,且在三个层次独立作用互不干扰。比学习缩放系数的方法(如 AdaMerging)更高效且不需验证集(层间缩放部分)

局限性 / 可改进方向

  • 需要 32 个代理样本做前向传播——虽然数据量极小,但严格意义上不是完全 data-free(相比 ACE-Merging)
  • 仅在视觉任务(ViT/CLIP)上验证,缺少语言模型的实验
  • 全局 \(\alpha\) 系数仍需验证集选择,未实现完全自动化
  • rank 预算 \(k = \lfloor d_{\text{out}} / T \rfloor\) 对所有任务均匀分配,未考虑任务复杂度差异——可探索自适应 rank 分配
  • 白化操作丢弃了奇异值信息,可能过度压缩有用的尺度差异

相关工作与启发

  • vs TSV-M: TSV-M 在参数 SVD 空间中合并,ESM 在激活 PCA 空间中合并,ESM 在所有设置下一致优于 TSV-M(+2~3%)
  • vs Iso-CTS: Iso-CTS 通过奇异值归一化构建各向同性公共子空间,ESM 从功能角度构建本质子空间,20-task 场景下 ESM 优势更明显(+2.5%)
  • vs ACE-Merging: 两篇都是 CVPR'26 的模型合并工作,但思路完全不同——ACE 从协方差估计出发用闭式解,ESM 从激活偏移 PCA 出发用低秩分解+正交化。ACE 完全 data-free,ESM 需要 32 样本。两者可能互补

评分

  • 新颖性: ⭐⭐⭐⭐ ESD 分解思路新颖,但 PCA on activations 的想法在其他领域不算全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融详尽、代理数据鲁棒性分析、缩放系数可视化、计算开销报告齐全
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表丰富,但极化缩放部分的实验动机展示略冗长
  • 价值: ⭐⭐⭐⭐ 视觉模型合并 SOTA,但缺少语言模型验证限制了影响力