Evading Data Provenance in Deep Neural Networks¶

会议: ICCV 2025
arXiv: 2508.01074
代码: GitHub
领域: 数据安全 / 模型版权
关键词: 数据溯源, 数据集所有权验证, 规避攻击, 知识蒸馏, 后门水印

一句话总结¶

揭示了当前数据集所有权验证（DOV）方法的安全假象——通过一个统一的规避框架 Escaping DOV，利用教师模型在 OOD 数据集上向代理学生传输任务相关但标识无关的知识，成功同时绕过所有 11 种 DOV 方法。

研究背景与动机¶

现代深度学习严重依赖大规模数据集，但许多数据集受版权保护或包含敏感信息。数据集所有权验证（DOV）作为追踪未授权模型训练的 post hoc 方法，近年来发展迅速，形成三大类方法：

后门水印：在数据集中嵌入"后门"样本，训练后的模型对触发样本产生预定义行为

非投毒水印：微调样本使模型置信度偏移，通过假设检验验证

数据集指纹：利用训练数据的固有特征（如决策边界距离）进行验证

然而，本文的核心发现是：之前的研究使用了过于简单的规避攻击进行评估，造成了虚假的安全感。现有规避方法主要是简单的正则化和通用后门防御（如微调、剪枝），缺乏应对高级 DOV（如不可见水印、非投毒水印、数据集指纹）的能力。

关键洞察：所有 DOV 方法的验证行为都具有两个共同特征——排他性（只属于特定数据集，不会被其他数据激活）和隐蔽性（不影响主任务语义，作为旁信号存在）。基于这一洞察，可以设计统一的规避策略：用 OOD 数据作为中介传输知识，自然地过滤掉这些排他且隐蔽的验证信号。

方法详解¶

整体框架¶

Escaping DOV 的流程： 1. 教师训练：在版权数据集 \(\mathcal{D}\) 上直接训练教师模型 \(f_{\theta_t}\)（不可避免地被标记） 2. 迁移集收集：从 OOD 图库集 \(\mathcal{G}\)（如 ImageNet）中精选最优子集 \(\mathcal{T}\) 3. 选择性知识蒸馏：用 \(\mathcal{T}\) 作为中介，从教师提取任务导向但无标识的知识到代理学生 \(f_{\theta_s}\)

关键设计¶

迁移集精选（Transfer Set Curation）：利用 VLM（MobileCLIP）和 LLM（GPT-4o mini）实现可靠的样本选择，核心流程：
- 零样本分类：用 LLM 为每个类别生成描述集，增强 VLM 的零样本分类能力（避免在版权数据上微调 VLM 导致被标记）。将图库集样本按 VLM 预测分配到 \(K\) 个类别桶
- 按分布距离排序：用 VLM 图像编码器将版权数据集 \(\mathcal{D}\) 投影到特征空间，计算每类的密度质心 \(\text{Cent}_t\)。桶内样本按与质心的距离排序
- 共识过滤：仅选择教师模型和 VLM 预测一致的样本（确保教师的预测基于真实语义而非验证行为），直到每类数量达到 \(|\mathcal{D}_t|\)

这保证了迁移集中几乎不包含能触发验证行为的样本。

选择性知识蒸馏（Selective Knowledge Transfer, SKT）：标准蒸馏可能通过软标签中的"暗知识"传递验证行为。SKT 通过生成教师模型的最坏情况扰动来抑制这种传递：
- 扰动池生成：用教师模型在 \(\mathcal{D}\) 上生成通用对抗扰动 \(\delta\)（自适应选择 \(L_0\)、\(L_2\)、\(L_\infty\) 范数约束中使损失最大的），离线预计算
- 腐蚀链生成：用遗传算法搜索 ImageNet-C 的 15 种腐蚀的最优组合和顺序，形成非受限扰动
- 对抗蒸馏：以概率 \(\beta\) 将扰动/腐蚀应用到迁移集样本后输入学生，但教师仍用干净样本输出，迫使学生对验证行为保持不变性：

\[\arg\min_{\theta_s} \mathcal{L}\left(\frac{f_{\theta_s}(x)}{\tau}, \frac{f_{\theta_t}(x)}{\tau}\right) + \beta \cdot \mathcal{L}\left(\frac{f_{\theta_s}(A(x))}{\tau}, \frac{f_{\theta_t}(x)}{\tau}\right)\]

损失函数 / 训练策略¶

使用标准 KL 散度蒸馏损失，温度 \(\tau=1\)。SKT 的核心想法是：任务知识和验证知识具有不同的"沸点"——在低温下可以自然分离。扰动池和腐蚀链的生成都是离线完成，训练时仅增加少量开销。

实验关键数据¶

主实验¶

在 CIFAR-10 和 Tiny ImageNet 上对 11 种 DOV 方法的规避结果：

DOV 方法	CIFAR-10 原始 VSR/p-value	规避后 VSR/p-value	规避后 ACC
BadNets	100.00%	1.36%	93.46%
UBW（无目标）	95.54%	1.74%	93.41%
Narcissus（不可见）	87.34%	4.59%	94.37%
Radioactive Data	3.03e-3	9.45e-1	94.07%
ANW	1.37e-9	1.00e+0	93.91%
Domain Watermark	1.67e-22	1.00e+0	93.90%
Dataset Inference	1.87e-3	4.76e-1	93.97%
MeFA	2.62e-14	1.00e+0	93.93%

所有 DOV 方法均被成功规避（VSR 接近随机猜测，p-value 远超 0.01 阈值），且准确率损失不到 1%。

消融实验¶

与 9 种 SOTA 规避方法在 CIFAR-10 上的对比（4 种最难 DOV）：

方法	BadNets ACC/VSR	Narcissus ACC/VSR	Isotope p-value	Dataset Inf. p-value
Fine-pruning	86.21/99.37	86.58/43.75	0.0532	0.0095
BCU	92.75/1.56	92.33/61.72	0.1622	0.0773
ABD	84.94/7.07	85.42/22.10	0.0066	0.3696
Escaping DOV	93.46/1.36	94.37/4.59	0.2845	0.4759

Escaping DOV 是唯一能同时规避所有 4 种 DOV 方法的攻击，且在准确率上全面领先。ABD 虽然在 Narcissus 上也有效，但无法规避 Isotope（p-value=0.0066 < 0.01）。

关键发现¶

教师和学生参数之间存在损失屏障（loss barrier），表明学生发展出了完全不同的预测机制
教师的测试/训练损失比超过 \(10^3\)（容易被指纹检测），学生的比值不到 2
蒸馏温度 \(\tau\) 的影响：温度越高，无 SKT 时 VSR 急剧升高，但有 SKT 时保持稳定
在域特定数据集（人脸情感 RAFDB、医学影像 OrganCMNIST）上同样有效
结合 mixup 训练教师可进一步增强规避效果

亮点与洞察¶

统一视角的深刻洞察：所有 DOV 方法的验证信号都是"排他且隐蔽"的，这是其力量来源也是致命弱点——OOD 数据天然不会触发这些信号
攻防不对称性：构建强大的 DOV 需要同时满足多个约束（不影响合法训练、不可检测、不可绕过），但规避者只需破坏其中一环
实用价值：作为安全评估框架，帮助 DOV 开发者更严格地测试其方法的鲁棒性
温度 \(\tau=1\) 下任务知识与验证知识自然分离的发现具有理论意义

局限与展望¶

规避成功依赖于获取足够大且多样的 OOD 图库集
对自适应防御者（如语义后门、反蒸馏后门）的鲁棒性有限
本文聚焦图像分类，未扩展到 LLM、文本-图像生成等其他模态
研究结论虽然对安全研究有价值，但也可能被攻击者利用——存在双刃剑效应
迁移集精选依赖 CLIP 和 GPT-4o mini 的能力，这些模型本身可能有偏差

评分¶

新颖性: 8/10 — 首个统一规避框架，洞察深刻
技术质量: 8/10 — 覆盖 11 种 DOV + 9 种基线，实验扎实
实用性: 7/10 — 双刃剑：既是安全评估工具也可能被滥用
写作质量: 8/10 — 问题动机和方法设计逻辑清晰