跳转至

📚 AI Paper Notes

Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature

Dataless Weight Disentanglement in Task Arithmetic via Kronecker-Factored Approximate Curvature¶

会议: ICLR 2026
arXiv: 2602.17385
代码: 未公开
领域: 自监督学习 / 模型压缩 / 微调
关键词: 任务算术, 权重解纠缠, KFAC, 表征漂移, 无数据正则化

一句话总结¶

提出 TAK 方法，将任务算术中的表征漂移正则化等价为 Jacobian Gram 矩阵的二次型，利用 KFAC 近似实现无需外部任务数据的高效权重解纠缠，在任务加法和任务否定上达到 SOTA。

研究背景与动机¶

领域现状：任务算术（Task Arithmetic）通过线性组合任务向量（微调权重减去预训练权重）来编辑模型行为，但多任务向量叠加时会出现跨任务干扰。
现有痛点：现有的表征漂移正则化方法需要访问其他任务的数据，在隐私限制或去中心化训练场景下不可行。
核心矛盾：权重解纠缠需要知道"其他任务关心什么特征方向"，但我们无法访问其他任务的数据。
本文要解决什么？ 无需其他任务数据的权重解纠缠正则化。
切入角度：在线性化模型下，表征漂移简化为关于 Jacobian Gram 矩阵的二次型，该矩阵可以预计算并共享（替代数据共享）。
核心idea一句话：共享 Jacobian Gram 矩阵的 KFAC 因子而非数据，实现隐私友好的跨任务权重解纠缠。

方法详解¶

整体框架¶

在线性化微调框架下：(1) 每个任务在自己数据上计算 Jacobian Gram 矩阵的 KFAC 近似，(2) 共享 KFAC 因子而非原始数据，(3) 新任务微调时，用收到的 KFAC 因子作为正则化约束避免表征漂移。

关键设计¶

表征漂移与 Jacobian Gram 的等价:
做什么：推导无数据的漂移正则化形式
核心思路：在模型线性化下，表征漂移 = tau'^T * G_t * tau'，其中 G_t 是任务 t 数据上的 Jacobian Gram 矩阵（P x P 维，P 是参数数）。G_t 只需在任务 t 数据上计算一次后就可以脱离数据使用。
设计动机：G_t 等价于广义 Gauss-Newton（GGN）矩阵，可以利用成熟的二阶优化近似技术。
KFAC 近似:
做什么：将 P x P 的 GGN 矩阵近似为逐层 Kronecker 积
核心思路：G(theta^l) ≈ B^l ⊗ A^l，其中 A^l 是输入协方差、B^l 是输出梯度协方差。存储和计算从 O(P^2) 降到 O(sum(d_l^2))。
设计动机：全 GGN 不可存储（P^2 太大），KFAC 保留了层内相关性同时实现了可行的计算。
跨任务 KFAC 因子聚合:
做什么：将多个任务的 KFAC 因子合并为单一正则化项
核心思路：提出聚合方案将每个任务的 (B_t, A_t) 合并为共享的 (B_agg, A_agg)，复杂度与任务数无关。
设计动机：避免存储所有任务的单独 KFAC 因子，保持常数空间复杂度。

训练策略¶

线性化微调 + KFAC 正则化的二次型惩罚项。正则化强度通过超参数控制。

实验关键数据¶

主实验（任务加法，8任务）¶

方法	平均准确率	需要数据?
标准 TA	baseline	否
数据驱动正则化	best-prev	需要所有任务数据
TAK (KFAC)	SOTA	仅需 KFAC 因子

关键发现¶

TAK 在 CLIP ViT-B/32 和 ViT-L/14 上均达到 SOTA
对任务向量缩放系数 alpha 更鲁棒——消除了在验证集上调优 alpha 的需要
不同任务的向量在函数空间中更局域化（解纠缠效果好）
KFAC 近似足以捕获大部分表征漂移信息

亮点与洞察¶

隐私友好的模块化训练：共享矩阵因子而非数据，完美适用于联邦学习和隐私场景。这个范式可以推广到更多跨任务协同的设置。
二阶优化工具的迁移：将 KFAC（通常用于优化加速）迁移到权重解纠缠正则化，跨领域的工具迁移值得学习。
线性化的实用性：再次证明了模型线性化在任务算术中的关键作用——简化了理论分析并指导了实际方法设计。

局限性 / 可改进方向¶

模型线性化在大模型和复杂任务上的精度可能不够
KFAC 是块对角近似，忽略了跨层相关性
每个任务仍需要在自己数据上计算 KFAC 因子（一次性成本）
仅在 CLIP 视觉模型上验证，LLM 的任务算术可能需要不同处理

相关工作与启发¶

vs 标准TA (Ilharco et al., 2022): 本文在其上增加正则化
vs TIES/DARE: 基于 magnitude 的任务向量剪枝，与正则化方法互补
vs EWC/SI: 连续学习中的二阶正则化，TAK 将类似思路引入任务算术

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将表征漂移与 GGN 矩阵的联系建立得很漂亮
实验充分度: ⭐⭐⭐⭐ 多模型验证 + alpha 鲁棒性分析
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨清晰
价值: ⭐⭐⭐⭐ 对任务算术和模块化微调领域有重要贡献