DC-Merge: Improving Model Merging with Directional Consistency¶

会议: CVPR 2026 (Main Track)
arXiv: 2603.06242
代码: https://github.com/Tobeginwith/DC-Merge
领域: 模型合并 / 多任务学习
关键词: model merging, task vector, singular value decomposition, directional consistency, LoRA

一句话总结¶

DC-Merge 发现模型合并的关键在于保持合并后多任务向量与原始单任务向量之间奇异空间方向的一致性，通过奇异值平滑 + 共享正交子空间投影两步操作，在 Vision 和 Vision-Language 任务上均取得 SOTA 合并效果。

研究背景与动机¶

领域现状¶

模型合并旨在将多个任务适配模型整合为一个统一模型，继承各任务知识。现有方法如 Task Arithmetic、TIES、DARE 等通过对 task vector（微调参数 - 预训练参数）进行加权平均/剪枝来实现合并。

现有痛点¶

能量分布不均：Task vector 的 SVD 分解中，少数大奇异值主导了总能量（如前 5% 的奇异值可能占 90%+ 能量），合并时弱但语义重要的分量被忽略

几何方向不一致：不同任务的 task vector 在参数空间的几何方向相互冲突，直接合并会扭曲各 task vector 的方向结构

核心矛盾¶

简单的加权平均或裁剪在处理高维参数空间中的方向性信息时过于粗糙——它们无法保证合并结果在奇异空间的方向与各个单独 task vector 保持一致。

核心 idea¶

通过两步操作保持方向一致性（Directional Consistency）：先平滑各 task vector 的奇异值以平衡能量分布，再将能量平衡后的 task vector 投影到共享正交子空间以对齐几何方向。

方法详解¶

整体框架¶

输入 \(N\) 个 task vector \(\{\boldsymbol{\tau}_i\}_{i=1}^N\)，每个 \(\boldsymbol{\tau}_i = \boldsymbol{\theta}_i - \boldsymbol{\theta}_0\)。Pipeline 分三步： 1. 奇异值平滑（Singular Value Smoothing）：对每个 \(\boldsymbol{\tau}_i\) 做 SVD，平滑奇异值分布 2. 共享正交子空间投影（Shared Orthogonal Subspace Projection）：将平滑后的 task vector 投影到一个共享子空间以对齐方向 3. 子空间聚合与反投影（Aggregation & Back-projection）：在子空间中聚合后投影回原参数空间

关键设计¶

1. 奇异值平滑（SVD Smoothing）¶

功能：对每个 task vector \(\boldsymbol{\tau}_i\) 进行 SVD 分解 \(\boldsymbol{\tau}_i = \mathbf{U}_i \boldsymbol{\Sigma}_i \mathbf{V}_i^\top\)，然后对奇异值向量 \(\boldsymbol{\sigma}_i\) 应用平滑变换
核心思路：使用幂变换 \(\sigma_j \leftarrow \sigma_j^\alpha\)（\(\alpha < 1\)，如 \(\alpha = 0.5\)），压缩大奇异值、提升小奇异值，使能量分布更均匀
设计动机：防止少数大奇异值在合并时完全主导结果，确保语义上重要但能量较弱的知识分量得到充分表达
与之前方法的区别：Task Arithmetic 直接平均不考虑奇异值分布；TIES 只做向量级裁剪，未触及奇异空间

2. 共享正交子空间投影¶

功能：寻找一个共享正交基 \(\mathbf{Q}\)，使得所有能量平滑后的 task vector 被投影到该子空间后，与原始方向的重构误差最小
核心思路：求解优化问题 \(\min_{\mathbf{Q}} \sum_{i=1}^N \|\tilde{\boldsymbol{\tau}}_i - \mathbf{Q}\mathbf{Q}^\top \tilde{\boldsymbol{\tau}}_i\|_F^2\)，其中 \(\tilde{\boldsymbol{\tau}}_i\) 是平滑后的 task vector。通过对拼接矩阵做 SVD 取前 \(k\) 个奇异向量得到 \(\mathbf{Q}\)
设计动机：不同 task vector 的奇异基 \(\mathbf{U}_i, \mathbf{V}_i\) 方向各异，直接平均会导致方向扭曲。共享子空间提供统一的坐标系，在保证最小重构误差的同时对齐各 task vector 的几何方向

3. 子空间聚合与反投影¶

功能：在子空间中对对齐后的 task vector 做加权聚合：\(\hat{\boldsymbol{\tau}} = \lambda \sum_{i=1}^N \mathbf{Q}^\top \tilde{\boldsymbol{\tau}}_i\)，再反投影回原空间：\(\boldsymbol{\theta}_{merge} = \boldsymbol{\theta}_0 + \mathbf{Q}\hat{\boldsymbol{\tau}}\)
设计动机：在共享子空间内做聚合，天然保证了合并结果与各 task vector 的方向一致性

损失函数 / 训练策略¶

DC-Merge 是完全无训练（training-free）的后处理方法——不需要任何额外数据或微调。超参仅有平滑指数 \(\alpha\) 和子空间维度 \(k\)，均通过小规模验证集选取。

实验关键数据¶

主实验：Vision 任务（8 任务合并，ViT-B/32）¶

方法	平均准确率 (%)	对比 Pretrained
Pretrained	48.3	—
Task Arithmetic	55.4	+7.1
TIES	56.3	+8.0
DARE	57.0	+8.7
Consensus	57.8	+9.5
DC-Merge	59.6	+11.3

消融实验¶

配置	平均准确率 (%)	说明
Full DC-Merge	59.6	完整方法
w/o SVD Smoothing	57.8	去掉平滑后降 1.8%
w/o Subspace Projection	56.5	去掉子空间投影后降 3.1%
w/o Both (baseline)	55.4	等价于 Task Arithmetic

LoRA 合并实验¶

方法	Vision-Language Avg (%)
LoRA Arithmetic	72.1
DARE-LoRA	73.5
DC-Merge-LoRA	75.8

关键发现¶

子空间投影是最关键的模块（贡献 3.1%），SVD 平滑贡献 1.8%，两者互补
\(\alpha \in [0.3, 0.6]\) 范围内效果稳定，对超参不敏感
DC-Merge 在 LoRA 和 Full Fine-tuning 两种场景下都一致优于 baseline
方法在 Vision-Language（如 CLIP 微调）场景的提升更显著

亮点与洞察¶

从奇异空间方向一致性角度理解模型合并——这个视角比"裁剪冲突参数"或"权重平均"更深刻，提供了理论基础
SVD 平滑的简洁优雅——一个幂变换就能有效平衡能量分布，几乎没有计算开销
共享子空间投影的思路可推广——不仅限于 task vector 合并，任何需要"在保持方向的前提下合并多个高维向量"的场景都可以借鉴
Training-free——无需额外数据或计算，纯后处理，即插即用

局限与展望¶

子空间维度 \(k\) 需要通过验证集选取，对于没有验证数据的场景不够方便
SVD 分解在极大规模模型（如 70B+ LLM）上的计算开销可能较高
仅在 ViT 和 CLIP 系列上验证，未扩展到 decoder-only LLM
当任务数量很多（>20）时，共享子空间可能无法同时满足所有 task vector 的方向约束
未讨论 task vector 质量差异大（如某些任务微调很差）的鲁棒性

评分¶

新颖性: ⭐⭐⭐⭐ 从方向一致性角度统一理解模型合并是新颖的，但两个技术模块（SVD平滑、子空间投影）本身不新
实验充分度: ⭐⭐⭐⭐ Vision + VL 两大场景，Full FT + LoRA 两种设置，消融齐全
写作质量: ⭐⭐⭐⭐ 问题定义清晰，从分析到方案到实验逻辑连贯
价值: ⭐⭐⭐⭐ 解决了模型合并的核心问题，training-free 属性实用价值高