跳转至

MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models

会议: ACL 2025
arXiv: 2410.08604
代码: 无(论文附有补充代码,接收后公开)
领域: LLM/NLP
关键词: 模型指纹, 所有权验证, 模型合并, 知识产权保护, 黑盒验证, 对抗鲁棒性

一句话总结

提出 MergePrint,首个针对模型合并(model merging)场景的 LLM 黑盒指纹验证方法,通过伪合并模型模拟合并行为并两阶段优化(输入优化 + 参数优化),使嵌入的指纹在合并后仍可被检测,实现高效、无害、抗篡改的所有权验证。

研究背景与动机

  1. 训练 LLM 成本极高,模型本身是高价值知识产权,亟需所有权保护手段。
  2. 模型合并(model merging)成为新威胁:将多个专家模型参数直接合并即可获得多任务模型,无需额外训练,计算成本极低,大幅降低了模型盗用门槛。
  3. 现有黑盒指纹方法不抗合并:TRAP(内在指纹)和 IF(注入指纹)在合并比例 ≤50% 时指纹几乎消失,无法检测。
  4. 白盒验证不实用:模型窃取者通常仅通过 API 提供服务,不公开权重,HuReF/REEF 等白盒方法无法适用。
  5. 直接嵌入预定义指纹有副作用:不常见的输入-输出对初始损失高,需要大量优化步骤,导致模型性能下降。
  6. 本文首次提出针对模型合并的指纹方法,定义了五项实用要求:抗合并(R1)、无害性(R2)、防误认(R3)、高效性(R4)、保密性(R5)。

方法详解

整体框架

MergePrint 采用两阶段优化流程:输入优化(OptI)参数优化(OptP)。核心思想是构建伪合并模型(pseudo-merged model)模拟合并后的参数分布,在此模型上优化指纹嵌入,使指纹在真实合并场景下仍可存活。

模块一:伪合并模型(Pseudo-Merged Model)

  • 模型所有者无法预知恶意用户会与哪些专家模型合并,因此无法直接在真实合并模型上优化。
  • 解决方案:用基础模型 θ_b 自身作为其他专家模型的代理,构造伪合并模型:θ̃_m = θ_b + α(θ_o − θ_b)。
  • 直觉:模型合并的本质是不同能力共存,若指纹在伪合并(即参数被稀释)后仍可检测,那么在真实合并中也大概率存活。
  • 分别为 OptI 和 OptP 设不同合并系数 α_I=0.3 和 α_P=0.1(更激进的稀释确保鲁棒性)。

模块二:输入优化(OptI)

  • 目标:预优化指纹输入 x,使 (x, y) 在伪合并模型上的损失更低,从而减少后续参数优化步数。
  • 使用 GCG(Greedy Coordinate Gradient)进行文本对抗优化,基于梯度贪心选择 token。
  • 关键正则化:加入 −λ·L(p_{θ_b}(·|x), y) 项,确保优化后的输入在基础模型上不会产生目标输出,防止误认(overclaim)。
  • 提前停止:当基础模型上的损失低于阈值 3.5 时停止优化。
  • 优化后的输入呈随机乱码形式(如 "Decrypt message: r4tjqht4bno"),天然具有保密性。

模块三:参数优化(OptP)

  • 在伪合并模型上用交叉熵损失优化所有者模型参数 θ_o,使其产生目标输出 y。
  • 使用更低的合并系数 α_P=0.1(仅保留 10% 的所有者模型参数),确保即使在极端稀释下指纹仍可存活。
  • 由于 OptI 已大幅降低初始损失,OptP 仅需 18 步即可收敛,耗时约 7 分钟。

训练与验证

  • 目标输出 y 为随机单词(如 "transformer""pikachu"),不可猜测。
  • 验证时计算 VSR(Verification Success Rate):对嫌疑模型查询 n 次,统计输出前缀精确匹配 y 的比例。
  • 验证无需访问模型权重,完全黑盒,仅需 API 查询。

实验

实验设置

  • 基础模型:LLaMA-2-7B;所有者模型:WizardMath-7B-V1.0、LLaMA-2-7B-CHAT。
  • 合并方法:Task Arithmetic、TIES-merging、DARE、Breadcrumbs、DELLA 及其组合,共 8 种。
  • 基线:TRAP(内在指纹)、IF(注入指纹)。
  • 评估基准:ARC-C/E、CommonsenseQA、GSM8K、HellaSwag、OBQA、PIQA、Toxigen、TriviaQA、Winogrande。

表 1:三模型合并,双指纹共存

合并系数 (α1/α2/α3) Task Arith. y1/y2 TIES y1/y2 DARE+TA y1/y2 DARE+TIES y1/y2
0.33/0.33/0.33 1.00/1.00 1.00/1.00 1.00/1.00 1.00/1.00
0.10/0.45/0.45 0.93/1.00 0.93/1.00 1.00/1.00 1.00/1.00
Avg VSR 0.992 0.992 1.000 1.000

发现:即使所有者模型仅占合并权重的 10%,MergePrint 仍能以 93%+ 的 VSR 验证指纹;两个不同指纹可在同一合并模型中共存且互不干扰。

表 2:无害性评估(Harmlessness)

模型 Diff Avg ↓ Diff Std ↓
WizardMath (IF) 0.92 1.35
WizardMath (Ours w/o OptI) 0.60 0.78
WizardMath (Ours) 0.15 0.23
Chat (IF) 1.21 1.75
Chat (Ours w/o OptI) 0.54 0.87
Chat (Ours) 0.45 0.55

发现:MergePrint 对模型性能的影响极小(WizardMath 的平均绝对差异仅 0.15),远优于 IF;OptI 显著减少了性能损失——去掉 OptI 后差异从 0.15 升至 0.60。

更多关键实验发现

  • 抗多模型合并(Figure 3):与最多 7 个模型合并后指纹仍保持高 VSR,TIES-merging 在合并 Swallow-7B 时指纹消失是唯一例外。
  • 超越合并场景(Table 4):MergePrint 在微调(Alpaca)、量化(LLM.int8())、剪枝(r≤0.5)场景下 VSR=1.0,全面优于 TRAP 和 IF。
  • 推理超参鲁棒性(Table 5):温度从 0.4 到 2.0、top-p 从 0.90 到 1.00,VSR 保持 1.0;温度=3.0 时仍有 0.87。
  • 保密性(Table 3):输入字符替换 ≥10% 时 VSR 降至 0.13,≥20% 时完全为 0,说明指纹极难猜测。

亮点

  • 首个针对模型合并的指纹方法,填补了 LLM IP 保护的重要空白。
  • 伪合并模型的设计简洁优雅:无需知道攻击者使用的其他专家模型,仅用基础模型近似即可。
  • 两阶段优化兼顾效率与无害性:OptI 将 OptP 步数大幅降低,整体流程 <10 分钟。
  • 全面的评估:覆盖 8 种合并方法、多模型合并、微调/量化/剪枝、推理超参变化等多种场景。
  • 五项需求 (R1-R5) 全部满足,是真正实用的验证方案。

局限

  • 不抗知识蒸馏:学生模型通过输入-输出对训练,指纹不会被典型输入触发,因此无法传递到学生模型。
  • 伪合并模型是近似:用基础模型代替未知专家模型是启发式做法,在某些极端合并场景(如 TIES + Swallow-7B)可能失效。
  • 仅在 7B 规模验证:未在更大模型(13B/70B)上实验,可扩展性未知。
  • 指纹输入为乱码:虽然增强了保密性,但如果 API 提供者过滤非自然语言输入,验证可能受阻。
  • 验证需要多次查询:VSR 需采样多次输出计算,高 API 成本场景下可能不方便。

相关工作

  • 白盒指纹:HuReF(参数不变方向)、REEF(中间表示比较)、Fernandez et al.(权重嵌入)——需访问模型内部。
  • 黑盒指纹:LLMmap(分析响应识别版本)、TRAP(优化输入-输出对)、IF(指令微调嵌入)——但均不抗合并。
  • 模型合并:Task Arithmetic、TIES-merging、DARE、Breadcrumbs、DELLA——MergePrint 首次将其视为威胁而非工具。
  • 后门攻击:Zhang et al. 2024b 提出抗合并后门,但仅针对 CV 模型且目标是非定向错误输出。
  • 对抗攻击:GCG(Zou et al. 2023)——本文借用其做输入优化。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次提出模型合并场景下的指纹方法,伪合并模型设计新颖,但整体框架(GCG + 指令微调)基于已有技术组合。
  • 有效性: ⭐⭐⭐⭐⭐ — 全部五项需求满足,8 种合并方法上全面优于基线,且泛化到合并之外的场景。
  • 实用性: ⭐⭐⭐⭐ — 整体流程 <10 分钟,纯黑盒验证,但不抗蒸馏且仅验证了 7B 模型。
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,五项需求定义明确,实验全面系统,但数学符号较密集。