Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature¶
会议: ICLR 2026
arXiv: 2602.17385
代码: 未公开
领域: 自监督学习 / 模型压缩 / 微调
关键词: 任务算术, 权重解纠缠, KFAC, 表征漂移, 无数据正则化
一句话总结¶
提出 TAK 方法,将任务算术中的表征漂移正则化等价为 Jacobian Gram 矩阵的二次型,利用 KFAC 近似实现无需外部任务数据的高效权重解纠缠,在任务加法和任务否定上达到 SOTA。
研究背景与动机¶
- 领域现状:任务算术(Task Arithmetic)通过线性组合任务向量(微调权重减去预训练权重)来编辑模型行为,但多任务向量叠加时会出现跨任务干扰。
- 现有痛点:现有的表征漂移正则化方法需要访问其他任务的数据,在隐私限制或去中心化训练场景下不可行。
- 核心矛盾:权重解纠缠需要知道"其他任务关心什么特征方向",但我们无法访问其他任务的数据。
- 本文要解决什么? 无需其他任务数据的权重解纠缠正则化。
- 切入角度:在线性化模型下,表征漂移简化为关于 Jacobian Gram 矩阵的二次型,该矩阵可以预计算并共享(替代数据共享)。
- 核心idea一句话:共享 Jacobian Gram 矩阵的 KFAC 因子而非数据,实现隐私友好的跨任务权重解纠缠。
方法详解¶
整体框架¶
在线性化微调框架下:(1) 每个任务在自己数据上计算 Jacobian Gram 矩阵的 KFAC 近似,(2) 共享 KFAC 因子而非原始数据,(3) 新任务微调时,用收到的 KFAC 因子作为正则化约束避免表征漂移。
关键设计¶
- 表征漂移与 Jacobian Gram 的等价:
- 做什么:推导无数据的漂移正则化形式
- 核心思路:在模型线性化下,表征漂移 = tau'^T * G_t * tau',其中 G_t 是任务 t 数据上的 Jacobian Gram 矩阵(P x P 维,P 是参数数)。G_t 只需在任务 t 数据上计算一次后就可以脱离数据使用。
-
设计动机:G_t 等价于广义 Gauss-Newton(GGN)矩阵,可以利用成熟的二阶优化近似技术。
-
KFAC 近似:
- 做什么:将 P x P 的 GGN 矩阵近似为逐层 Kronecker 积
- 核心思路:G(theta^l) ≈ B^l ⊗ A^l,其中 A^l 是输入协方差、B^l 是输出梯度协方差。存储和计算从 O(P^2) 降到 O(sum(d_l^2))。
-
设计动机:全 GGN 不可存储(P^2 太大),KFAC 保留了层内相关性同时实现了可行的计算。
-
跨任务 KFAC 因子聚合:
- 做什么:将多个任务的 KFAC 因子合并为单一正则化项
- 核心思路:提出聚合方案将每个任务的 (B_t, A_t) 合并为共享的 (B_agg, A_agg),复杂度与任务数无关。
- 设计动机:避免存储所有任务的单独 KFAC 因子,保持常数空间复杂度。
训练策略¶
线性化微调 + KFAC 正则化的二次型惩罚项。正则化强度通过超参数控制。
实验关键数据¶
主实验(任务加法,8任务)¶
| 方法 | 平均准确率 | 需要数据? |
|---|---|---|
| 标准 TA | baseline | 否 |
| 数据驱动正则化 | best-prev | 需要所有任务数据 |
| TAK (KFAC) | SOTA | 仅需 KFAC 因子 |
关键发现¶
- TAK 在 CLIP ViT-B/32 和 ViT-L/14 上均达到 SOTA
- 对任务向量缩放系数 alpha 更鲁棒——消除了在验证集上调优 alpha 的需要
- 不同任务的向量在函数空间中更局域化(解纠缠效果好)
- KFAC 近似足以捕获大部分表征漂移信息
亮点与洞察¶
- 隐私友好的模块化训练:共享矩阵因子而非数据,完美适用于联邦学习和隐私场景。这个范式可以推广到更多跨任务协同的设置。
- 二阶优化工具的迁移:将 KFAC(通常用于优化加速)迁移到权重解纠缠正则化,跨领域的工具迁移值得学习。
- 线性化的实用性:再次证明了模型线性化在任务算术中的关键作用——简化了理论分析并指导了实际方法设计。
局限性 / 可改进方向¶
- 模型线性化在大模型和复杂任务上的精度可能不够
- KFAC 是块对角近似,忽略了跨层相关性
- 每个任务仍需要在自己数据上计算 KFAC 因子(一次性成本)
- 仅在 CLIP 视觉模型上验证,LLM 的任务算术可能需要不同处理
相关工作与启发¶
- vs 标准TA (Ilharco et al., 2022): 本文在其上增加正则化
- vs TIES/DARE: 基于 magnitude 的任务向量剪枝,与正则化方法互补
- vs EWC/SI: 连续学习中的二阶正则化,TAK 将类似思路引入任务算术
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将表征漂移与 GGN 矩阵的联系建立得很漂亮
- 实验充分度: ⭐⭐⭐⭐ 多模型验证 + alpha 鲁棒性分析
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨清晰
- 价值: ⭐⭐⭐⭐ 对任务算术和模块化微调领域有重要贡献