Model Merging in the Essential Subspace¶

会议: CVPR 2026
arXiv: 2602.20208
代码: 无
领域: LLM效率
关键词: 模型合并, 主成分分析, 本质子空间, 极化缩放, 低秩分解

一句话总结¶

提出 ESM 框架，通过对参数更新引起的激活偏移做 PCA 构建"本质子空间"（而非直接对参数做 SVD），并用三级极化缩放增强关键参数、抑制噪声，在 ViT-B/32 的 20 任务合并中比 Iso-CTS 提升 3.2%（绝对准确率）。

研究背景与动机¶

领域现状：模型合并将多个基于同一预训练 checkpoint 微调的专家模型融合为一个多任务模型，无需重训。近期 SVD-based 方法（TSV-M, Iso-CTS）通过对任务矩阵做 SVD 截断来减少干扰，取得了较好效果。
现有痛点：SVD 分解最小化的是参数矩阵 \(\Delta W\) 的 Frobenius 范数重建误差，但忽略了输入特征分布。截断误差为 \(\sum_{i=k+1}^r \sigma_i^2 \cdot \mathbb{E}[(v_i^\top x)^2]\)——即使 \(\sigma_i\) 小，如果输入在 \(v_i\) 方向投影大，截断仍导致严重的功能损失。
核心矛盾：SVD 子空间与任务的特征空间不对齐，导致低秩合并时丢弃了功能上重要的方向；同时大量任务合并时，噪声参数可能淹没关键知识。
本文要解决什么？ (1) 构建更本质的、与特征分布对齐的低秩子空间；(2) 在合并过程中增强高信噪比参数、抑制噪声。
切入角度：不直接分解参数矩阵，而是对参数更新引起的激活偏移 \(\Delta O = X_{\text{proxy}} \Delta W^\top\) 做 PCA，得到与任务功能直接相关的主方向。同时观察到参数范数与方向重要性高度相关。
核心idea一句话：在激活偏移的主成分空间（而非参数的奇异值空间）中做低秩分解和合并，并用极化缩放放大共识信号。

方法详解¶

整体框架¶

输入：预训练权重 \(\theta_0\) + \(T\) 个微调专家权重。输出：合并模型 \(\theta_M\)。方法分两大模块：(1) Essential Subspace Decomposition (ESD) — 对每个任务的参数更新矩阵在激活偏移主方向上做低秩分解；(2) Polarized Scaling (PS) — 三级缩放（任务间、维度间、层间）增强高信号参数。最终合并公式 \(\theta_M^{(\ell)} = \theta_0^{(\ell)} + \alpha \cdot \beta_\ell \cdot \Delta W_{\text{merged}}^{(\ell)}\)。

关键设计¶

本质子空间分解 (Essential Subspace Decomposition, ESD):
做什么：构建与任务特征分布对齐的低秩子空间
核心思路：用 32 个无标签代理样本做前向传播，计算激活偏移 \(\Delta O = X_{\text{proxy}} \Delta W^\top \in \mathbb{R}^{n \times d_{\text{out}}}\)，对 \(\Delta O\) 做 PCA 得到特征向量 \(P = [p_1, ..., p_{d_{\text{out}}}]\)。将 \(\Delta W\) 投影到 \(P\) 上得坐标矩阵 \(A = P^\top \Delta W\)，截断保留 top-\(k\) 得 \(\widehat{\Delta W} = \hat{P} \hat{A}\)。截断误差为 \(\sum_{i=k+1}^{d_{\text{out}}} \lambda_i\)，仅取决于丢弃的特征值，与输入分布解耦
设计动机：SVD 截断误差还含 \(\mathbb{E}[(v_i^\top x)^2]\) 权重，无法保证功能最优；ESD 直接在输出激活空间中分解，保证丢弃的是功能上最不重要的方向。实验显示 ESD 在保留 5% 成分时 CKA 相似度远高于 SVD
本质子空间合并 (ESM) 三步流程:
做什么：将多个任务的 ESD 低秩因子正交融合
核心思路：(a) 分解截断：每个任务分配 rank 预算 \(k = \lfloor d_{\text{out}} / T \rfloor\)；(b) 拼接：横向拼接基矩阵 \(P_{\text{cat}} = [\hat{P}_1 | ... | \hat{P}_T]\)，纵向拼接坐标 \(A_{\text{cat}}\)；(c) 正交化：对 \(P_{\text{cat}}\) 和 \(A_{\text{cat}}\) 分别做 SVD 白化 \(\tilde{P} = U_P V_P^\top\), \(\tilde{A} = U_A V_A^\top\)，消除跨任务子空间相关性
设计动机：不同任务的 ESD 基不一定正交，直接拼接会引入干扰；白化操作使基向量最大化去相关
三级极化缩放 (Polarized Scaling, PS):
做什么：放大高置信度参数、抑制噪声参数
核心思路：缩放因子均为 (相对范数)² 的形式：
- 任务间缩放 \(s_t^{(\ell)} = (|\hat{A}_t^{(\ell)}|_F / \mathbb{E}_i[|\hat{A}_i^{(\ell)}|_F])^2\)：防止重要任务信号被大量弱任务噪声淹没
- 维度间缩放 \(c_j^{(\ell)} = (|\mathbf{a}_j^{(\ell)}|_2 / \mathbb{E}_i[|\mathbf{a}_i^{(\ell)}|_2])^2\)：增强跨任务共识强的输入维度
- 层间缩放 \(\beta_\ell = (|\Delta W_{\text{merged}}^{(\ell)}|_F / \mathbb{E}_{i \in \mathcal{L}_{\text{type}}}[|\Delta W_{\text{merged}}^{(i)}|_F])^2\)：仅在同类型层间比较（如所有 QKV 层），避免残差连接导致的跨层竞争
设计动机：实验（Figure 3-4）验证了高范数参数对应高置信度方向——按高范数优先顺序加载参数始终表现最好，即使归一化范数后仍然如此，说明是方向质量而非幅度在起作用

损失函数 / 训练策略¶

ESM 不涉及训练，仅需 32 个无标签代理样本做一次前向传播。合并系数 \(\alpha\) 在验证集上选择。总额外开销极小：ViT-B/16 上 PCA 1.39s/task + 正交化 13.89s（一次性）。

实验关键数据¶

主实验¶

ViT-B/16，平均绝对准确率 (%)

方法	8 tasks	14 tasks	20 tasks
Task Arithmetic	75.4	70.5	65.8
TSV-M	89.0	84.6	80.6
Iso-CTS	91.1	86.4	82.4
ESM (Ours)	91.8	87.4	84.9

ViT-L/14，平均绝对准确率 (%)

方法	8 tasks	14 tasks	20 tasks
TSV-M	93.0	89.2	87.7
Iso-CTS	94.7	91.0	90.1
ESM (Ours)	94.8	91.3	90.4

消融实验¶

分解方式	PS	ViT-B/16 8tasks	ViT-B/16 20tasks	说明
SVD	无	89.0	80.6	基线(TSV-M)
SVD	全部	89.6	82.1	PS 对 SVD 也有效
ESD	无	90.9	82.8	ESD 本身提升 +1.9/+2.2
ESD	仅层间	91.4	83.7	层间缩放贡献最大
ESD	全部	91.8	84.9	三级缩放进一步提升

关键发现¶

ESD 的能量集中度远高于 SVD：保留更少成分就能捕获同等能量，且 CKA 相似度显著更高
极化缩放是通用模块：即使用在 SVD 分解上也能提升 1.5%，说明范数缩放的思路具有普适性
代理数据集的组成对结果影响极小：OOD 数据（ImageNet-1k）与 ID 数据性能几乎相同（差异 <0.1%），甚至单类别采样也不影响，说明激活偏移的主方向具有输入不变性
仅 4 个代理样本就能稳定优于 SVD 基线
反向缩放（reciprocal）导致严重性能下降（-5%+），验证了"高范数=高重要性"的假设

亮点与洞察¶

SVD vs ESD 的对比极具说服力：从理论（截断误差公式的区别）到实验（能量集中度、CKA）全方位论证了"在激活偏移空间分解优于在参数空间分解"。核心 insight 是模型合并应关注功能性影响而非参数能量
代理数据集的鲁棒性令人惊讶：即使用完全 OOD 的数据做 PCA，效果也几乎不变。这暗示微调模型的激活偏移主方向是一种内在属性，与输入数据无关——这本身就是一个有趣的发现
极化缩放设计简洁高效：(相对范数)² 的简单公式就实现了"放大信号、压缩噪声"的效果，且在三个层次独立作用互不干扰。比学习缩放系数的方法（如 AdaMerging）更高效且不需验证集（层间缩放部分）

局限性 / 可改进方向¶

需要 32 个代理样本做前向传播——虽然数据量极小，但严格意义上不是完全 data-free（相比 ACE-Merging）
仅在视觉任务（ViT/CLIP）上验证，缺少语言模型的实验
全局 \(\alpha\) 系数仍需验证集选择，未实现完全自动化
rank 预算 \(k = \lfloor d_{\text{out}} / T \rfloor\) 对所有任务均匀分配，未考虑任务复杂度差异——可探索自适应 rank 分配
白化操作丢弃了奇异值信息，可能过度压缩有用的尺度差异

评分¶

新颖性: ⭐⭐⭐⭐ ESD 分解思路新颖，但 PCA on activations 的想法在其他领域不算全新
实验充分度: ⭐⭐⭐⭐⭐ 消融详尽、代理数据鲁棒性分析、缩放系数可视化、计算开销报告齐全
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表丰富，但极化缩放部分的实验动机展示略冗长
价值: ⭐⭐⭐⭐ 视觉模型合并 SOTA，但缺少语言模型验证限制了影响力