跳转至

Disrupting Model Merging: A Parameter-Level Defense Without Sacrificing Accuracy

会议: ICCV 2025
arXiv: 2503.07661
代码: 无
领域: 扩散模型/图像生成
关键词: 模型合并防御, 知识产权保护, 参数重排列, 注意力头缩放, 功能等价变换

一句话总结

提出 PaRaMS(Parameter Rearrangement & Random Multi-head Scaling),一种参数级主动防御方法,通过功能等价的参数变换将模型推离共享损失盆地,使得被保护模型在合并时性能严重退化,同时保持未合并时的原始性能。

研究背景与动机

预训练-微调范式使得模型合并(Model Merging)成为一种低成本获取他人专业能力的途径。通过简单的参数线性组合(如 Task Arithmetic),一个"搭便车者"(free-rider)可以将开源的微调模型合并到自己的模型中,几乎零成本地继承原模型的专业能力。这带来了严重的知识产权(IP)问题:

被动防御的局限性:现有的水印和指纹技术只能在合并后检测侵权,无法阻止合并本身

合并操作的隐蔽性:与代码复制不同,模型合并混合了参数空间,难以追溯来源

IP 侵权成本极低:Hugging Face 上已有近 3 万个合并模型,合并已成为普遍做法

因此,核心研究问题是:如何在不改变模型功能的前提下,主动使模型在被合并时性能退化? 这需要同时满足两个条件:(1) 合并前功能等价;(2) 合并后性能大幅下降。

本文的关键洞察来自损失地形(Loss Landscape)分析:从同一预训练检查点微调的模型通常落在共享的低损失盆地中,这是模型合并成功的根本原因。如果通过功能等价变换将模型推到远离该盆地的另一个盆地,合并就会失败。

方法详解

整体框架

PaRaMS 由两个互补的参数变换模块组成,分别针对 Transformer 架构中的两个核心组件:MLP 层和 Attention 层。两个变换都保证功能等价性(函数输出完全不变),同时使参数在空间中远离原始位置,从而破坏合并。最终防御为两者的组合:\(\eta = \eta_{\text{perm}} \circ \eta_{\text{scaling}}\)

关键设计

  1. MLP 参数重排列(Parameter Rearrangement):

    • 功能:通过置换矩阵对 MLP 层的隐藏层神经元进行重新排序
    • 核心思路:对于两层 MLP \(\text{MLP}(X) = W_2 \sigma(W_1 X + b_1) + b_2\),引入置换矩阵 \(P\),令: \(W_1' = PW_1, \quad b_1' = Pb_1, \quad W_2' = W_2 P^T\) 由于 \(\sigma\) 是逐元素激活函数,\(P\)\(P^T\) 的效果相互抵消,输出完全不变。
    • 设计动机:选择使参数距预训练模型最远的置换矩阵: \(\arg\max_{\eta_{\text{perm}}} \|\theta_{\text{pre}}^{\text{MLP}} - \eta_{\text{perm}}(\theta_{\text{def}}^{\text{MLP}})\|^2\) 该优化可被转化为线性分配问题(Linear Assignment Problem)高效求解。
  2. 随机多头缩放(Random Multi-head Scaling):

    • 功能:对 Attention 模块的 Q/K/V 矩阵施加对角缩放变换
    • 核心思路:对每个注意力头 \(i\),采样对角矩阵 \(A_i, B_i\),对角元素从 \(\mathcal{U}(s_{\min}, s_{\max})\) 采样,然后: \(Q_i \leftarrow Q_i A_i, \quad K_i \leftarrow K_i A_i^{-1}\) \(V_i \leftarrow V_i B_i, \quad W_O[:,i] \leftarrow B_i^{-1} W_O[:,i]\) 利用 \(QK^T = QA(KA^{-1})^T\) 的恒等式保证功能不变。
    • 设计动机:随机缩放使注意力层参数大幅偏移,与 MLP 重排列互补,共同覆盖 Transformer 的所有关键模块。
  3. Dropout 剪枝防御(应对自适应攻击):

    • 功能:针对可能的自适应绕过攻击(如搜索逆置换),提出基于 dropout 的剪枝增强鲁棒性
    • 核心思路:在重排列前对部分参数施加 dropout,使攻击者即使恢复了排列顺序也无法完全还原参数
    • 设计动机:考虑了敌手可能尝试的各种反制手段,确保防御在对抗性场景下仍然有效

损失函数 / 训练策略

PaRaMS 是一种后处理方法,不涉及重新训练。防御过程仅需: - 对模型的每个 MLP 层求解最优置换矩阵(线性规划) - 对每个注意力头采样随机缩放因子 - 一次性变换参数即可,计算开销极小

实验关键数据

主实验

图像分类任务(ViT-B-32, Task Arithmetic 合并, \(\lambda=0.8\)):

设置 MMP-准确率(%) MMP+准确率(%) 下降幅度
Cars/RESISC45 70.29/94.24 0.51/2.13 >65%
EuroSAT/SVHN 98.06/95.90 9.67/19.41 >75%
GTSRB/DTD 98.20/67.82 1.93/2.66 >65%
MNIST/RESISC45 99.60/90.62 2.10/10.10 >80%

图像生成任务(Stable Diffusion 1.5, 文本-图像对齐度):

模型 UMP- UMP+ MMP- MMP+
Prompt1 0.3286 0.3306 0.3416 0.1277
Prompt2 0.3335 0.3428 0.3386 0.0820

消融实验

不同合并方法下的防御效果(ViT-B-32 平均准确率):

合并方法 MMP- MMP+ 降幅
Task Arithmetic ~75% <10% >65%
TIES-Merging ~70% <10% >60%
Weight Average ~65% <15% >50%
AdaMerging ~75% <10% >65%
TA + DARE ~70% <10% >60%

文本分类任务(Llama2):

数据集 UMP-/UMP+ MMP-(TA) MMP+(TA)
Emotion 99.8 97.6 21.4
Twitter 99.7 95.3 35.8

关键发现

  • PaRaMS 在所有合并方法(TA、TIES、WA、ADA 及其 DARE 变体)上都能有效破坏合并,MMP+ 准确率通常降至 10% 以下
  • UMP- 和 UMP+ 性能完全一致,验证了功能等价性
  • 防御在合并 2-7 个模型的场景下均有效
  • 跨任务(分类、生成、NLP)和跨架构(ViT、SD、Llama2)均有效

亮点与洞察

  • 首个主动防御方案:从被动检测转向主动预防,填补了模型合并安全的重要空白
  • 功能等价性保证:数学上严格证明变换不改变模型输出,不需要任何近似
  • 基于损失地形的理论分析:从"共享盆地"的视角优雅地解释了为什么合并能成功以及如何破坏它
  • 多模态验证:在视觉、语言、生成任务上均验证了方法的广泛适用性

局限与展望

  • 攻击者如果拥有大量计算资源(如进行知识蒸馏而非参数合并),防御可能失效
  • 对于仅合并 LoRA 参数的 PEM-TA 场景,由于只能使用缩放变换,防御效果相对较弱
  • 随机缩放的范围 \([s_{\min}, s_{\max}]\) 的选择对防御效果有影响,寻找最优范围是一个开放问题
  • 未探讨多个防御模型之间合并的场景

相关工作与启发

  • 与模型水印(IPR 保护)技术互补:水印检测侵权,PaRaMS 预防侵权
  • 神经网络的置换不变性(permutation symmetry)是一个被长期研究的话题,本文巧妙地将其用于安全防御
  • 启示:模型合并的成功依赖于参数空间中的"共享结构",破坏这种结构即可破坏合并

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次提出主动防御模型合并的概念,问题定义和解决思路都很新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 跨任务、跨架构、跨合并方法的全面验证,还分析了自适应攻击
  • 写作质量: ⭐⭐⭐⭐ 问题形式化清晰,威胁模型明确
  • 价值: ⭐⭐⭐⭐ 在开源模型安全领域具有重要实际意义

相关论文