MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models¶
会议: ACL 2025
arXiv: 2410.08604
代码: 无(论文附有补充代码,接收后公开)
领域: LLM/NLP
关键词: 模型指纹, 所有权验证, 模型合并, 知识产权保护, 黑盒验证, 对抗鲁棒性
一句话总结¶
提出 MergePrint,首个针对模型合并(model merging)场景的 LLM 黑盒指纹验证方法,通过伪合并模型模拟合并行为并两阶段优化(输入优化 + 参数优化),使嵌入的指纹在合并后仍可被检测,实现高效、无害、抗篡改的所有权验证。
研究背景与动机¶
- 训练 LLM 成本极高,模型本身是高价值知识产权,亟需所有权保护手段。
- 模型合并(model merging)成为新威胁:将多个专家模型参数直接合并即可获得多任务模型,无需额外训练,计算成本极低,大幅降低了模型盗用门槛。
- 现有黑盒指纹方法不抗合并:TRAP(内在指纹)和 IF(注入指纹)在合并比例 ≤50% 时指纹几乎消失,无法检测。
- 白盒验证不实用:模型窃取者通常仅通过 API 提供服务,不公开权重,HuReF/REEF 等白盒方法无法适用。
- 直接嵌入预定义指纹有副作用:不常见的输入-输出对初始损失高,需要大量优化步骤,导致模型性能下降。
- 本文首次提出针对模型合并的指纹方法,定义了五项实用要求:抗合并(R1)、无害性(R2)、防误认(R3)、高效性(R4)、保密性(R5)。
方法详解¶
整体框架¶
MergePrint 采用两阶段优化流程:输入优化(OptI) → 参数优化(OptP)。核心思想是构建伪合并模型(pseudo-merged model)模拟合并后的参数分布,在此模型上优化指纹嵌入,使指纹在真实合并场景下仍可存活。
模块一:伪合并模型(Pseudo-Merged Model)¶
- 模型所有者无法预知恶意用户会与哪些专家模型合并,因此无法直接在真实合并模型上优化。
- 解决方案:用基础模型 θ_b 自身作为其他专家模型的代理,构造伪合并模型:θ̃_m = θ_b + α(θ_o − θ_b)。
- 直觉:模型合并的本质是不同能力共存,若指纹在伪合并(即参数被稀释)后仍可检测,那么在真实合并中也大概率存活。
- 分别为 OptI 和 OptP 设不同合并系数 α_I=0.3 和 α_P=0.1(更激进的稀释确保鲁棒性)。
模块二:输入优化(OptI)¶
- 目标:预优化指纹输入 x,使 (x, y) 在伪合并模型上的损失更低,从而减少后续参数优化步数。
- 使用 GCG(Greedy Coordinate Gradient)进行文本对抗优化,基于梯度贪心选择 token。
- 关键正则化:加入 −λ·L(p_{θ_b}(·|x), y) 项,确保优化后的输入在基础模型上不会产生目标输出,防止误认(overclaim)。
- 提前停止:当基础模型上的损失低于阈值 3.5 时停止优化。
- 优化后的输入呈随机乱码形式(如 "Decrypt message: r4tjqht4bno"),天然具有保密性。
模块三:参数优化(OptP)¶
- 在伪合并模型上用交叉熵损失优化所有者模型参数 θ_o,使其产生目标输出 y。
- 使用更低的合并系数 α_P=0.1(仅保留 10% 的所有者模型参数),确保即使在极端稀释下指纹仍可存活。
- 由于 OptI 已大幅降低初始损失,OptP 仅需 18 步即可收敛,耗时约 7 分钟。
训练与验证¶
- 目标输出 y 为随机单词(如 "transformer""pikachu"),不可猜测。
- 验证时计算 VSR(Verification Success Rate):对嫌疑模型查询 n 次,统计输出前缀精确匹配 y 的比例。
- 验证无需访问模型权重,完全黑盒,仅需 API 查询。
实验¶
实验设置¶
- 基础模型:LLaMA-2-7B;所有者模型:WizardMath-7B-V1.0、LLaMA-2-7B-CHAT。
- 合并方法:Task Arithmetic、TIES-merging、DARE、Breadcrumbs、DELLA 及其组合,共 8 种。
- 基线:TRAP(内在指纹)、IF(注入指纹)。
- 评估基准:ARC-C/E、CommonsenseQA、GSM8K、HellaSwag、OBQA、PIQA、Toxigen、TriviaQA、Winogrande。
表 1:三模型合并,双指纹共存¶
| 合并系数 (α1/α2/α3) | Task Arith. y1/y2 | TIES y1/y2 | DARE+TA y1/y2 | DARE+TIES y1/y2 |
|---|---|---|---|---|
| 0.33/0.33/0.33 | 1.00/1.00 | 1.00/1.00 | 1.00/1.00 | 1.00/1.00 |
| 0.10/0.45/0.45 | 0.93/1.00 | 0.93/1.00 | 1.00/1.00 | 1.00/1.00 |
| Avg VSR | 0.992 | 0.992 | 1.000 | 1.000 |
发现:即使所有者模型仅占合并权重的 10%,MergePrint 仍能以 93%+ 的 VSR 验证指纹;两个不同指纹可在同一合并模型中共存且互不干扰。
表 2:无害性评估(Harmlessness)¶
| 模型 | Diff Avg ↓ | Diff Std ↓ |
|---|---|---|
| WizardMath (IF) | 0.92 | 1.35 |
| WizardMath (Ours w/o OptI) | 0.60 | 0.78 |
| WizardMath (Ours) | 0.15 | 0.23 |
| Chat (IF) | 1.21 | 1.75 |
| Chat (Ours w/o OptI) | 0.54 | 0.87 |
| Chat (Ours) | 0.45 | 0.55 |
发现:MergePrint 对模型性能的影响极小(WizardMath 的平均绝对差异仅 0.15),远优于 IF;OptI 显著减少了性能损失——去掉 OptI 后差异从 0.15 升至 0.60。
更多关键实验发现¶
- 抗多模型合并(Figure 3):与最多 7 个模型合并后指纹仍保持高 VSR,TIES-merging 在合并 Swallow-7B 时指纹消失是唯一例外。
- 超越合并场景(Table 4):MergePrint 在微调(Alpaca)、量化(LLM.int8())、剪枝(r≤0.5)场景下 VSR=1.0,全面优于 TRAP 和 IF。
- 推理超参鲁棒性(Table 5):温度从 0.4 到 2.0、top-p 从 0.90 到 1.00,VSR 保持 1.0;温度=3.0 时仍有 0.87。
- 保密性(Table 3):输入字符替换 ≥10% 时 VSR 降至 0.13,≥20% 时完全为 0,说明指纹极难猜测。
亮点¶
- 首个针对模型合并的指纹方法,填补了 LLM IP 保护的重要空白。
- 伪合并模型的设计简洁优雅:无需知道攻击者使用的其他专家模型,仅用基础模型近似即可。
- 两阶段优化兼顾效率与无害性:OptI 将 OptP 步数大幅降低,整体流程 <10 分钟。
- 全面的评估:覆盖 8 种合并方法、多模型合并、微调/量化/剪枝、推理超参变化等多种场景。
- 五项需求 (R1-R5) 全部满足,是真正实用的验证方案。
局限¶
- 不抗知识蒸馏:学生模型通过输入-输出对训练,指纹不会被典型输入触发,因此无法传递到学生模型。
- 伪合并模型是近似:用基础模型代替未知专家模型是启发式做法,在某些极端合并场景(如 TIES + Swallow-7B)可能失效。
- 仅在 7B 规模验证:未在更大模型(13B/70B)上实验,可扩展性未知。
- 指纹输入为乱码:虽然增强了保密性,但如果 API 提供者过滤非自然语言输入,验证可能受阻。
- 验证需要多次查询:VSR 需采样多次输出计算,高 API 成本场景下可能不方便。
相关工作¶
- 白盒指纹:HuReF(参数不变方向)、REEF(中间表示比较)、Fernandez et al.(权重嵌入)——需访问模型内部。
- 黑盒指纹:LLMmap(分析响应识别版本)、TRAP(优化输入-输出对)、IF(指令微调嵌入)——但均不抗合并。
- 模型合并:Task Arithmetic、TIES-merging、DARE、Breadcrumbs、DELLA——MergePrint 首次将其视为威胁而非工具。
- 后门攻击:Zhang et al. 2024b 提出抗合并后门,但仅针对 CV 模型且目标是非定向错误输出。
- 对抗攻击:GCG(Zou et al. 2023)——本文借用其做输入优化。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次提出模型合并场景下的指纹方法,伪合并模型设计新颖,但整体框架(GCG + 指令微调)基于已有技术组合。
- 有效性: ⭐⭐⭐⭐⭐ — 全部五项需求满足,8 种合并方法上全面优于基线,且泛化到合并之外的场景。
- 实用性: ⭐⭐⭐⭐ — 整体流程 <10 分钟,纯黑盒验证,但不抗蒸馏且仅验证了 7B 模型。
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,五项需求定义明确,实验全面系统,但数学符号较密集。