Model Merging in the Essential Subspace¶
会议: CVPR 2026
arXiv: 2602.20208
代码: 无
领域: LLM效率
关键词: 模型合并, 主成分分析, 本质子空间, 极化缩放, 低秩分解
一句话总结¶
提出 ESM 框架,通过对参数更新引起的激活偏移做 PCA 构建"本质子空间"(而非直接对参数做 SVD),并用三级极化缩放增强关键参数、抑制噪声,在 ViT-B/32 的 20 任务合并中比 Iso-CTS 提升 3.2%(绝对准确率)。
研究背景与动机¶
- 领域现状:模型合并将多个基于同一预训练 checkpoint 微调的专家模型融合为一个多任务模型,无需重训。近期 SVD-based 方法(TSV-M, Iso-CTS)通过对任务矩阵做 SVD 截断来减少干扰,取得了较好效果。
- 现有痛点:SVD 分解最小化的是参数矩阵 \(\Delta W\) 的 Frobenius 范数重建误差,但忽略了输入特征分布。截断误差为 \(\sum_{i=k+1}^r \sigma_i^2 \cdot \mathbb{E}[(v_i^\top x)^2]\)——即使 \(\sigma_i\) 小,如果输入在 \(v_i\) 方向投影大,截断仍导致严重的功能损失。
- 核心矛盾:SVD 子空间与任务的特征空间不对齐,导致低秩合并时丢弃了功能上重要的方向;同时大量任务合并时,噪声参数可能淹没关键知识。
- 本文要解决什么? (1) 构建更本质的、与特征分布对齐的低秩子空间;(2) 在合并过程中增强高信噪比参数、抑制噪声。
- 切入角度:不直接分解参数矩阵,而是对参数更新引起的激活偏移 \(\Delta O = X_{\text{proxy}} \Delta W^\top\) 做 PCA,得到与任务功能直接相关的主方向。同时观察到参数范数与方向重要性高度相关。
- 核心idea一句话:在激活偏移的主成分空间(而非参数的奇异值空间)中做低秩分解和合并,并用极化缩放放大共识信号。
方法详解¶
整体框架¶
输入:预训练权重 \(\theta_0\) + \(T\) 个微调专家权重。输出:合并模型 \(\theta_M\)。方法分两大模块:(1) Essential Subspace Decomposition (ESD) — 对每个任务的参数更新矩阵在激活偏移主方向上做低秩分解;(2) Polarized Scaling (PS) — 三级缩放(任务间、维度间、层间)增强高信号参数。最终合并公式 \(\theta_M^{(\ell)} = \theta_0^{(\ell)} + \alpha \cdot \beta_\ell \cdot \Delta W_{\text{merged}}^{(\ell)}\)。
关键设计¶
- 本质子空间分解 (Essential Subspace Decomposition, ESD):
- 做什么:构建与任务特征分布对齐的低秩子空间
- 核心思路:用 32 个无标签代理样本做前向传播,计算激活偏移 \(\Delta O = X_{\text{proxy}} \Delta W^\top \in \mathbb{R}^{n \times d_{\text{out}}}\),对 \(\Delta O\) 做 PCA 得到特征向量 \(P = [p_1, ..., p_{d_{\text{out}}}]\)。将 \(\Delta W\) 投影到 \(P\) 上得坐标矩阵 \(A = P^\top \Delta W\),截断保留 top-\(k\) 得 \(\widehat{\Delta W} = \hat{P} \hat{A}\)。截断误差为 \(\sum_{i=k+1}^{d_{\text{out}}} \lambda_i\),仅取决于丢弃的特征值,与输入分布解耦
-
设计动机:SVD 截断误差还含 \(\mathbb{E}[(v_i^\top x)^2]\) 权重,无法保证功能最优;ESD 直接在输出激活空间中分解,保证丢弃的是功能上最不重要的方向。实验显示 ESD 在保留 5% 成分时 CKA 相似度远高于 SVD
-
本质子空间合并 (ESM) 三步流程:
- 做什么:将多个任务的 ESD 低秩因子正交融合
- 核心思路:(a) 分解截断:每个任务分配 rank 预算 \(k = \lfloor d_{\text{out}} / T \rfloor\);(b) 拼接:横向拼接基矩阵 \(P_{\text{cat}} = [\hat{P}_1 | ... | \hat{P}_T]\),纵向拼接坐标 \(A_{\text{cat}}\);(c) 正交化:对 \(P_{\text{cat}}\) 和 \(A_{\text{cat}}\) 分别做 SVD 白化 \(\tilde{P} = U_P V_P^\top\), \(\tilde{A} = U_A V_A^\top\),消除跨任务子空间相关性
-
设计动机:不同任务的 ESD 基不一定正交,直接拼接会引入干扰;白化操作使基向量最大化去相关
-
三级极化缩放 (Polarized Scaling, PS):
- 做什么:放大高置信度参数、抑制噪声参数
- 核心思路:缩放因子均为 (相对范数)² 的形式:
- 任务间缩放 \(s_t^{(\ell)} = (|\hat{A}_t^{(\ell)}|_F / \mathbb{E}_i[|\hat{A}_i^{(\ell)}|_F])^2\):防止重要任务信号被大量弱任务噪声淹没
- 维度间缩放 \(c_j^{(\ell)} = (|\mathbf{a}_j^{(\ell)}|_2 / \mathbb{E}_i[|\mathbf{a}_i^{(\ell)}|_2])^2\):增强跨任务共识强的输入维度
- 层间缩放 \(\beta_\ell = (|\Delta W_{\text{merged}}^{(\ell)}|_F / \mathbb{E}_{i \in \mathcal{L}_{\text{type}}}[|\Delta W_{\text{merged}}^{(i)}|_F])^2\):仅在同类型层间比较(如所有 QKV 层),避免残差连接导致的跨层竞争
- 设计动机:实验(Figure 3-4)验证了高范数参数对应高置信度方向——按高范数优先顺序加载参数始终表现最好,即使归一化范数后仍然如此,说明是方向质量而非幅度在起作用
损失函数 / 训练策略¶
ESM 不涉及训练,仅需 32 个无标签代理样本做一次前向传播。合并系数 \(\alpha\) 在验证集上选择。总额外开销极小:ViT-B/16 上 PCA 1.39s/task + 正交化 13.89s(一次性)。
实验关键数据¶
主实验¶
ViT-B/16,平均绝对准确率 (%)
| 方法 | 8 tasks | 14 tasks | 20 tasks |
|---|---|---|---|
| Task Arithmetic | 75.4 | 70.5 | 65.8 |
| TSV-M | 89.0 | 84.6 | 80.6 |
| Iso-CTS | 91.1 | 86.4 | 82.4 |
| ESM (Ours) | 91.8 | 87.4 | 84.9 |
ViT-L/14,平均绝对准确率 (%)
| 方法 | 8 tasks | 14 tasks | 20 tasks |
|---|---|---|---|
| TSV-M | 93.0 | 89.2 | 87.7 |
| Iso-CTS | 94.7 | 91.0 | 90.1 |
| ESM (Ours) | 94.8 | 91.3 | 90.4 |
消融实验¶
| 分解方式 | PS | ViT-B/16 8tasks | ViT-B/16 20tasks | 说明 |
|---|---|---|---|---|
| SVD | 无 | 89.0 | 80.6 | 基线(TSV-M) |
| SVD | 全部 | 89.6 | 82.1 | PS 对 SVD 也有效 |
| ESD | 无 | 90.9 | 82.8 | ESD 本身提升 +1.9/+2.2 |
| ESD | 仅层间 | 91.4 | 83.7 | 层间缩放贡献最大 |
| ESD | 全部 | 91.8 | 84.9 | 三级缩放进一步提升 |
关键发现¶
- ESD 的能量集中度远高于 SVD:保留更少成分就能捕获同等能量,且 CKA 相似度显著更高
- 极化缩放是通用模块:即使用在 SVD 分解上也能提升 1.5%,说明范数缩放的思路具有普适性
- 代理数据集的组成对结果影响极小:OOD 数据(ImageNet-1k)与 ID 数据性能几乎相同(差异 <0.1%),甚至单类别采样也不影响,说明激活偏移的主方向具有输入不变性
- 仅 4 个代理样本就能稳定优于 SVD 基线
- 反向缩放(reciprocal)导致严重性能下降(-5%+),验证了"高范数=高重要性"的假设
亮点与洞察¶
- SVD vs ESD 的对比极具说服力:从理论(截断误差公式的区别)到实验(能量集中度、CKA)全方位论证了"在激活偏移空间分解优于在参数空间分解"。核心 insight 是模型合并应关注功能性影响而非参数能量
- 代理数据集的鲁棒性令人惊讶:即使用完全 OOD 的数据做 PCA,效果也几乎不变。这暗示微调模型的激活偏移主方向是一种内在属性,与输入数据无关——这本身就是一个有趣的发现
- 极化缩放设计简洁高效:(相对范数)² 的简单公式就实现了"放大信号、压缩噪声"的效果,且在三个层次独立作用互不干扰。比学习缩放系数的方法(如 AdaMerging)更高效且不需验证集(层间缩放部分)
局限性 / 可改进方向¶
- 需要 32 个代理样本做前向传播——虽然数据量极小,但严格意义上不是完全 data-free(相比 ACE-Merging)
- 仅在视觉任务(ViT/CLIP)上验证,缺少语言模型的实验
- 全局 \(\alpha\) 系数仍需验证集选择,未实现完全自动化
- rank 预算 \(k = \lfloor d_{\text{out}} / T \rfloor\) 对所有任务均匀分配,未考虑任务复杂度差异——可探索自适应 rank 分配
- 白化操作丢弃了奇异值信息,可能过度压缩有用的尺度差异
相关工作与启发¶
- vs TSV-M: TSV-M 在参数 SVD 空间中合并,ESM 在激活 PCA 空间中合并,ESM 在所有设置下一致优于 TSV-M(+2~3%)
- vs Iso-CTS: Iso-CTS 通过奇异值归一化构建各向同性公共子空间,ESM 从功能角度构建本质子空间,20-task 场景下 ESM 优势更明显(+2.5%)
- vs ACE-Merging: 两篇都是 CVPR'26 的模型合并工作,但思路完全不同——ACE 从协方差估计出发用闭式解,ESM 从激活偏移 PCA 出发用低秩分解+正交化。ACE 完全 data-free,ESM 需要 32 样本。两者可能互补
评分¶
- 新颖性: ⭐⭐⭐⭐ ESD 分解思路新颖,但 PCA on activations 的想法在其他领域不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 消融详尽、代理数据鲁棒性分析、缩放系数可视化、计算开销报告齐全
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表丰富,但极化缩放部分的实验动机展示略冗长
- 价值: ⭐⭐⭐⭐ 视觉模型合并 SOTA,但缺少语言模型验证限制了影响力