MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models¶

会议: ACL 2025
arXiv: 2410.08604
代码: 无（论文附有补充代码，接收后公开）
领域: LLM/NLP
关键词: 模型指纹, 所有权验证, 模型合并, 知识产权保护, 黑盒验证, 对抗鲁棒性

一句话总结¶

提出 MergePrint，首个针对模型合并（model merging）场景的 LLM 黑盒指纹验证方法，通过伪合并模型模拟合并行为并两阶段优化（输入优化 + 参数优化），使嵌入的指纹在合并后仍可被检测，实现高效、无害、抗篡改的所有权验证。

研究背景与动机¶

训练 LLM 成本极高，模型本身是高价值知识产权，亟需所有权保护手段。
模型合并（model merging）成为新威胁：将多个专家模型参数直接合并即可获得多任务模型，无需额外训练，计算成本极低，大幅降低了模型盗用门槛。
现有黑盒指纹方法不抗合并：TRAP（内在指纹）和 IF（注入指纹）在合并比例 ≤50% 时指纹几乎消失，无法检测。
白盒验证不实用：模型窃取者通常仅通过 API 提供服务，不公开权重，HuReF/REEF 等白盒方法无法适用。
直接嵌入预定义指纹有副作用：不常见的输入-输出对初始损失高，需要大量优化步骤，导致模型性能下降。
本文首次提出针对模型合并的指纹方法，定义了五项实用要求：抗合并(R1)、无害性(R2)、防误认(R3)、高效性(R4)、保密性(R5)。

方法详解¶

整体框架¶

MergePrint 采用两阶段优化流程：输入优化（OptI） → 参数优化（OptP）。核心思想是构建伪合并模型（pseudo-merged model）模拟合并后的参数分布，在此模型上优化指纹嵌入，使指纹在真实合并场景下仍可存活。

模块一：伪合并模型（Pseudo-Merged Model）¶

模型所有者无法预知恶意用户会与哪些专家模型合并，因此无法直接在真实合并模型上优化。
解决方案：用基础模型 θ_b 自身作为其他专家模型的代理，构造伪合并模型：θ̃_m = θ_b + α(θ_o − θ_b)。
直觉：模型合并的本质是不同能力共存，若指纹在伪合并（即参数被稀释）后仍可检测，那么在真实合并中也大概率存活。
分别为 OptI 和 OptP 设不同合并系数 α_I=0.3 和 α_P=0.1（更激进的稀释确保鲁棒性）。

模块二：输入优化（OptI）¶

目标：预优化指纹输入 x，使 (x, y) 在伪合并模型上的损失更低，从而减少后续参数优化步数。
使用 GCG（Greedy Coordinate Gradient）进行文本对抗优化，基于梯度贪心选择 token。
关键正则化：加入 −λ·L(p_{θ_b}(·|x), y) 项，确保优化后的输入在基础模型上不会产生目标输出，防止误认（overclaim）。
提前停止：当基础模型上的损失低于阈值 3.5 时停止优化。
优化后的输入呈随机乱码形式（如 "Decrypt message: r4tjqht4bno"），天然具有保密性。

模块三：参数优化（OptP）¶

在伪合并模型上用交叉熵损失优化所有者模型参数 θ_o，使其产生目标输出 y。
使用更低的合并系数 α_P=0.1（仅保留 10% 的所有者模型参数），确保即使在极端稀释下指纹仍可存活。
由于 OptI 已大幅降低初始损失，OptP 仅需 18 步即可收敛，耗时约 7 分钟。

训练与验证¶

目标输出 y 为随机单词（如 "transformer""pikachu"），不可猜测。
验证时计算 VSR（Verification Success Rate）：对嫌疑模型查询 n 次，统计输出前缀精确匹配 y 的比例。
验证无需访问模型权重，完全黑盒，仅需 API 查询。

实验¶

实验设置¶

基础模型：LLaMA-2-7B；所有者模型：WizardMath-7B-V1.0、LLaMA-2-7B-CHAT。
合并方法：Task Arithmetic、TIES-merging、DARE、Breadcrumbs、DELLA 及其组合，共 8 种。
基线：TRAP（内在指纹）、IF（注入指纹）。
评估基准：ARC-C/E、CommonsenseQA、GSM8K、HellaSwag、OBQA、PIQA、Toxigen、TriviaQA、Winogrande。

表 1：三模型合并，双指纹共存¶

合并系数 (α1/α2/α3)	Task Arith. y1/y2	TIES y1/y2	DARE+TA y1/y2	DARE+TIES y1/y2
0.33/0.33/0.33	1.00/1.00	1.00/1.00	1.00/1.00	1.00/1.00
0.10/0.45/0.45	0.93/1.00	0.93/1.00	1.00/1.00	1.00/1.00
Avg VSR	0.992	0.992	1.000	1.000

发现：即使所有者模型仅占合并权重的 10%，MergePrint 仍能以 93%+ 的 VSR 验证指纹；两个不同指纹可在同一合并模型中共存且互不干扰。

表 2：无害性评估（Harmlessness）¶

模型	Diff Avg ↓	Diff Std ↓
WizardMath (IF)	0.92	1.35
WizardMath (Ours w/o OptI)	0.60	0.78
WizardMath (Ours)	0.15	0.23
Chat (IF)	1.21	1.75
Chat (Ours w/o OptI)	0.54	0.87
Chat (Ours)	0.45	0.55

发现：MergePrint 对模型性能的影响极小（WizardMath 的平均绝对差异仅 0.15），远优于 IF；OptI 显著减少了性能损失——去掉 OptI 后差异从 0.15 升至 0.60。

亮点¶

首个针对模型合并的指纹方法，填补了 LLM IP 保护的重要空白。
伪合并模型的设计简洁优雅：无需知道攻击者使用的其他专家模型，仅用基础模型近似即可。
两阶段优化兼顾效率与无害性：OptI 将 OptP 步数大幅降低，整体流程 <10 分钟。
全面的评估：覆盖 8 种合并方法、多模型合并、微调/量化/剪枝、推理超参变化等多种场景。
五项需求 (R1-R5) 全部满足，是真正实用的验证方案。

局限¶

不抗知识蒸馏：学生模型通过输入-输出对训练，指纹不会被典型输入触发，因此无法传递到学生模型。
伪合并模型是近似：用基础模型代替未知专家模型是启发式做法，在某些极端合并场景（如 TIES + Swallow-7B）可能失效。
仅在 7B 规模验证：未在更大模型（13B/70B）上实验，可扩展性未知。
指纹输入为乱码：虽然增强了保密性，但如果 API 提供者过滤非自然语言输入，验证可能受阻。
验证需要多次查询：VSR 需采样多次输出计算，高 API 成本场景下可能不方便。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次提出模型合并场景下的指纹方法，伪合并模型设计新颖，但整体框架（GCG + 指令微调）基于已有技术组合。
有效性: ⭐⭐⭐⭐⭐ — 全部五项需求满足，8 种合并方法上全面优于基线，且泛化到合并之外的场景。
实用性: ⭐⭐⭐⭐ — 整体流程 <10 分钟，纯黑盒验证，但不抗蒸馏且仅验证了 7B 模型。
写作质量: ⭐⭐⭐⭐ — 结构清晰，五项需求定义明确，实验全面系统，但数学符号较密集。