跳转至

DeepTracer: Tracing Stolen Model via Deep Coupled Watermarks

会议: AAAI 2026 arXiv: 2511.08985 代码: GitHub 领域: AI安全/模型版权保护 关键词: 模型水印, 模型窃取, 深度耦合水印, 黑盒验证, 知识产权保护

一句话总结

提出DeepTracer鲁棒水印框架,通过自适应源类选择(K-Means聚类覆盖特征空间)+ 同类耦合损失(拉近水印样本与目标类在输出空间的距离)+ 两阶段关键样本过滤,使水印任务与主任务深度耦合,在6种模型窃取攻击(含hard-label和data-free)下水印成功率平均达77-100%,远超现有方法。

研究背景与动机

  • 领域现状:模型水印是当前主流的DNN知识产权保护方案。黑盒水印方法通过在训练数据中混入特殊标记样本使模型学习水印行为,部署后通过查询验证版权。
  • 核心痛点:现有水印方法在面对模型窃取攻击时容易失效。窃取模型通过查询受害者模型训练替代模型,过程中水印行为往往无法迁移——尤其在hard-label(仅获得top-1标签)和data-free(无真实数据)等强攻击场景下。
  • 核心矛盾:传统水印方法(OOD类如Abstract、Noise)使用的水印样本特征与主任务特征分布不重叠,在过参数化网络中激活不同的神经元区域。模型窃取攻击聚焦于复现主任务功能,自然会忽略OOD水印功能。ID类方法(如MEA-Defender)虽改善了分布对齐,但水印与主任务的耦合仍不够深——通过输入特征层面的水印设计远不够,还需要在输出空间实现耦合。
  • 切入角度:如果水印任务的分布完全是主任务分布的子集,且在特征到输出的完整链路上与主任务深度耦合,那么窃取者在学习主任务时不可避免地会同时学到水印任务。

方法详解

整体框架

DeepTracer包含四个阶段:(1) 水印样本构建——自适应选择4个源类并组合为拼接样本;(2) 耦合水印嵌入——用同类耦合损失强化主任务和水印任务的输出空间耦合;(3) 关键样本生成——两阶段过滤选出最可靠的验证样本;(4) 版权验证——黑盒查询嫌疑模型进行版权判定。

关键设计

  1. 自适应源类选择与水印样本构建
  2. 做什么:选择4个最具代表性的类别作为水印源类,将其样本缩小为原图1/4并拼接
  3. 核心思路:对每个类计算特征质心 \(c_j = \frac{1}{N_j}\sum f_i^j\),用K-Means(K=4)对质心聚类,每个聚类中选距聚类中心最近的类作为源类。目标标签选择良性模型对水印样本预测概率最低的类
  4. 设计动机:随机选源类可能集中在特征空间某一区域,无法均匀覆盖主任务分布。K-Means聚类确保源类分散在整个特征空间中,使水印真正成为主任务的分布子集

  5. 同类耦合损失(Same-Class Coupling Loss)

  6. 做什么:在输出空间层面强制水印样本与其目标类的正常样本对齐
  7. 核心思路:类内损失 \(L_{intra} = \frac{1}{N}\sum\|f_i - c_{y_i}\|_2^2\) 拉近同标签样本到类质心;类间损失 \(L_{inter} = \frac{1}{N}\sum\sum \max(0, margin - \|f_i - c_j\|_2)^2\) 推远不同标签样本
  8. 总训练损失:\(L = L_{pri} + \lambda_1 L_{wm} + \lambda_2 L_{cpl}\)
  9. 设计动机:仅在输入特征层面耦合不够——窃取攻击是在输出层面模仿,因此必须在输出空间建立水印与主任务的绑定。当水印样本在最后一层的特征分布与目标类正常样本完全重叠时,任何成功复制主任务的窃取模型都不得不同时复制水印行为

  10. 两阶段关键样本过滤

  11. 第一阶段:从初始水印样本集 \(S_0\) 中筛选同时满足三个条件的样本——(a) 受害者模型正确识别水印标签;(b) 模拟窃取的替代模型也正确识别;(c) 良性模型不会识别为水印标签
  12. 第二阶段:从第一阶段结果中选替代模型对目标标签置信度最高的Top-M个样本
  13. 设计动机:不是所有水印样本都同样有效。通过替代模型模拟真实窃取场景进行预验证,选出最可能在实际窃取模型上也成功的样本,提高验证的可靠性

  14. 深度耦合的验证——热力图证据

  15. 对比Abstract/MEA-Defender/DeepTracer的神经网络激活热力图
  16. Abstract水印样本与正常样本激活完全不同的神经元区域
  17. DeepTracer的水印样本与正常样本激活几乎完全相同的区域——深度耦合的直观证据

损失函数/训练策略

  • 主任务损失 \(L_{pri}\)(交叉熵)+ 水印分类损失 \(L_{wm}\) + 同类耦合损失 \(L_{cpl} = \lambda_3 L_{intra} + \lambda_4 L_{inter}\)
  • 使用VGG-like / ResNet-18 / ResNet-34等模型,在FMNIST/CIFAR-10/CIFAR-100上评估
  • 窃取攻击方法覆盖:JBDA(种子样本基)、Knockoff(替代数据基)、DFME/DFMS-HL(无数据基)
  • 同时测试soft-label和hard-label两种攻击设置

实验关键数据

主实验表格(水印对主任务影响,CIFAR-10)

方法 良性模型Acc 水印模型Acc (Δ) 水印模型WSR 良性模型WSR(假阳性)
EWE 85.12 80.98 (-4.14) 19.44 0.91
MEA-Defender 84.26 83.44 (-0.82) 91.82 2.01
DeepTracer 85.31 85.59 (+0.28) 100.00 0.00

抗窃取能力表格(FMNIST, JBDA攻击)

方法 Soft-Label WSR Hard-Label WSR
Abstract 19.04 18.30
MEA-Defender 46.17 8.61
DeepTracer 91.65 86.90

关键发现

  • 零主任务精度损失:DeepTracer在CIFAR-10上水印后精度甚至略微提升0.28%——同类耦合损失起到了正则化效果
  • Hard-label攻击下优势最大:DeepTracer在hard-label攻击下WSR为86.90%,而MEA-Defender仅8.61%——10倍差距
  • False positive率为0:良性模型的WSR为0.00%,说明水印不会在未经篡改的模型上误报
  • Data-free攻击下仍鲁棒:在DFME/DFMS-HL无数据窃取下WSR仍达100%,其他方法普遍失效
  • 热力图直观验证:DeepTracer水印样本激活与正常样本高度一致,证实了深度耦合

亮点与洞察

  • "从分布耦合到输出耦合"的递进思路:不仅在输入特征分布层面让水印成为主任务的子集,还通过同类耦合损失在输出空间强制对齐——这种从浅到深的完整耦合是高鲁棒性的关键
  • K-Means自适应源类选择:简单但有效——将水印设计从随机选择提升到有策略的空间覆盖,可迁移到需要选代表性样本的其他场景
  • 水印作为正则化:DeepTracer微调后精度不降反升,说明深度耦合的水印可以兼容甚至增强主任务——这是之前的水印方法做不到的

局限性 / 可改进方向

  • 需要访问良性模型(即未加水印的同架构模型)来选择目标标签和过滤样本
  • 水印样本为4个子图拼接的视觉模式,如果攻击者知道这一构建方式,可能针对性防御
  • 实验规模有限(最大CIFAR-100,100类),大规模ImageNet实验缺失
  • 源类数量固定为4,是否对不同数据集需要不同K值未充分研究

相关工作与启发

  • vs. OOD水印(Abstract/Noise/Unrelated):OOD水印激活独立神经元区域,窃取后天然丢失;DeepTracer激活相同区域,窃取时不可分离
  • vs. MEA-Defender(ID水印SOTA):MEA-Defender仅在输入特征层面做耦合,DeepTracer进一步在输出空间做耦合——hard-label WSR从8.61%到86.90%的差距证明了输出空间耦合的必要性

评分

  • 新颖性: ⭐⭐⭐⭐ 深度耦合的完整设计链(特征覆盖→输出对齐→样本过滤)是系统性创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 6种窃取攻击×soft/hard-label×3数据集×10种水印基线,极其全面
  • 写作质量: ⭐⭐⭐⭐ 从OOD水印失效的根因分析到DeepTracer设计的逻辑清晰
  • 价值: ⭐⭐⭐⭐ 对模型知识产权保护有直接实用价值,特别是在MLaaS场景