跳转至

Rethinking Data Bias: Dataset Copyright Protection via Embedding Class-Wise Hidden Bias

会议: ECCV 2024
arXiv: N/A
代码: https://github.com/jjh6297/UndercoverBias (有)
领域: AI安全 / 数据集保护
关键词: 数据集水印, 版权保护, 隐蔽偏差, 模型取证, 知识产权

一句话总结

本文提出"Undercover Bias"数据集水印方法,通过在训练数据中嵌入与目标任务无关但与标签对应的隐蔽水印图案,使未授权使用者训练的模型不自觉地学会分类这些水印,水印分类能力作为未授权使用的不可抵赖证据,实现了隐蔽、模型无关、对目标任务无损的数据集版权保护。

研究背景与动机

领域现状:公开数据集是数据驱动AI发展的关键资源,但它们面临严重的非法使用风险——商业公司可能在未经授权的情况下使用研究用途的公开数据集训练商业模型。数据集版权保护旨在可靠地识别和验证此类未授权使用行为。

现有痛点:已有的数据集保护方法主要存在以下问题:(1) 基于可见水印的方法容易被检测和去除;(2) 基于后门攻击思路的方法可能被后门检测工具发现;(3) 一些方法要求知道可疑模型的架构或参数,不具备模型无关性;(4) 水印可能显著影响目标任务的性能,降低数据集可用性;(5) 验证证据不够强——合法训练也可能偶然出现相似行为,缺乏不可抵赖性。

核心矛盾:数据集保护需要同时满足四个看似矛盾的要求:水印足够隐蔽不被察觉、不影响原始任务性能、能被模型学习到作为使用证据、且这种证据不可能由合法训练偶然产生。传统方法难以同时满足所有要求。

本文目标 (1) 如何在数据集中嵌入不可察觉的水印;(2) 如何确保水印不影响目标任务性能;(3) 如何产生不可抵赖的未授权使用证据;(4) 如何适用于任意模型架构。

切入角度:作者观察到一个重要现象——深度学习模型经常无意中学到数据中的偏差(bias),甚至只靠偏差特征就能做出分类决策,即使这些偏差与任务本身无关。利用这一特性,可以故意在数据中植入与标签关联但与目标任务无关的"隐蔽偏差"。模型在训练时会自动学会利用这些偏差,形成未授权使用的确凿证据。

核心 idea:将"模型容易学到数据偏差"这一通常被视为缺陷的特性,反过来变成数据集保护的工具——故意嵌入类别级隐蔽偏差作为水印。

方法详解

整体框架

Undercover Bias 的工作流程分为三个阶段:(1) 水印嵌入:为数据集的每个类别设计独特的水印图案,以人眼不可见的方式嵌入到该类的训练图像中;(2) 数据集发布:将水印化的数据集公开发布,外观和使用体验与原始数据集无异;(3) 版权验证:当发现可疑模型时,用水印验证集(仅包含水印图案的图像,不含任何目标任务相关信息)测试该模型,如果模型能正确分类水印,则证明其使用了水印数据集进行训练。

关键设计

  1. 类别级隐蔽水印设计 (Class-wise Hidden Watermarks):

    • 功能:为每个类别创建独特的、人眼不可见的水印信号
    • 核心思路:每个类别 \(c\) 对应一个独特的水印图案 \(w_c\)。水印以极低的强度 \(\alpha\)(接近人眼感知阈值)叠加到该类的训练图像上:\(x'= x + \alpha \cdot w_c\)。水印图案本身与目标任务完全无关(例如可以是特定的频率图案或随机纹理),但因为与类别标签一一对应,模型在训练时会自动将水印特征与类别建立关联。水印设计需要满足:不同类别间高度可区分、低可见性、对图像质量影响最小
    • 设计动机:利用深度学习模型对数据偏差的敏感性——即使目标任务相关特征更显著,模型仍会捕获并记忆这些次要的水印特征,因为它们与标签存在完美关联
  2. 偏差-任务解耦验证 (Bias-Only Verification):

    • 功能:提供不可抵赖的未授权使用证据
    • 核心思路:构建一个仅包含水印图案的验证集——图像中只有水印模式,没有任何与目标任务相关的视觉信息。用这个验证集测试可疑模型:如果模型从未见过水印数据集,它不可能在偏差验证集上取得高于随机的分类准确率;如果模型使用了水印数据集训练,它会自动学到水印-类别的映射关系,从而在偏差验证集上展现出显著高于随机的分类准确率。这种证据不可能由合法训练偶然产生,具有统计意义上的不可抵赖性
    • 设计动机:后门攻击方法的"触发-行为"关系可以通过后门检测工具发现并消除。而隐蔽偏差方法的"水印-分类"关系是模型自然学习的结果,无法通过后门防御手段去除
  3. 鲁棒性增强策略:

    • 功能:提升水印在各种潜在攻击下的鲁棒性
    • 核心思路:(1) 水印强度自适应:根据图像的纹理复杂度动态调整 \(\alpha\),在纹理丰富的区域可以使用更高的水印强度而不被察觉;(2) 数据增强鲁棒性:确保水印图案在经过常见数据增强(如裁剪、翻转、颜色抖动)后仍可被模型学习;(3) 多频段嵌入:将水印分散到图像的多个频率段,增强对图像压缩和滤波攻击的鲁棒性
    • 设计动机:实际场景中,可疑模型的训练可能应用了各种数据预处理和增强,水印需要在这些变换下保持有效

损失函数 / 训练策略

水印嵌入阶段不涉及模型训练,是纯数据级操作。验证阶段测试可疑模型的水印分类准确率,使用统计假设检验(如p值检验)判断是否显著高于随机基线,以此作为使用证据。方法适用于任意模型架构(CNN、ViT等)和任意训练策略。

实验关键数据

主实验

数据集 目标任务准确率(原始) 目标任务准确率(水印后) 水印验证准确率 随机基线
CIFAR-10 94.2% 93.8% (-0.4%) 87.5% 10%
CIFAR-100 76.5% 75.9% (-0.6%) 62.3% 1%
ImageNet subset 78.3% 77.8% (-0.5%) 71.2% 0.1%
Segmentation 原始mIoU ~原始(-0.5%) 高于随机 随机

消融实验

配置 目标任务准确率 水印验证准确率 说明
无水印基线 94.2% 10.1% 接近随机
\(\alpha\) = 0.01 94.1% 52.3% 水印弱,验证准确率中等
\(\alpha\) = 0.05 93.8% 87.5% 平衡点
\(\alpha\) = 0.10 93.5% 93.2% 水印强,轻微影响任务性能

关键发现

  • 水印对目标任务性能的影响极小(< 1%),同时水印验证准确率远高于随机基线(高出数十倍)
  • 方法对不同模型架构(ResNet、VGG、DenseNet、ViT)均有效,证实了模型无关性
  • 水印在经历标准数据增强后仍可被学习,但极端压缩(如JPEG质量<20)可能影响水印可读性
  • 扩展到细粒度分类和图像分割任务后仍然有效,证明了方法的通用性

亮点与洞察

  • 将缺陷转化为特性的巧妙思路:深度学习模型容易学习数据偏差通常被视为模型鲁棒性的缺陷,但本文将其反转为数据集保护的工具。这种"以毒攻毒"的思维方式非常有启发性,暗示了许多其他"缺陷"可能也有正向利用的可能
  • 不可抵赖性的设计:偏差验证集只包含水印图案,完全不含目标任务信息。合法训练的模型不可能在这样的测试集上取得高分,这从统计学上提供了强有力的使用证据。这比后门攻击方法的"触发+目标类"验证更加干净和不可辩驳
  • 可迁移到数据溯源:该方法不仅可用于版权保护,还可以用于追踪数据来源——通过在不同的数据分发渠道使用不同的水印图案,可以定位泄露源

局限与展望

  • 水印强度与不可见性之间存在 trade-off,过低的强度可能导致验证不可靠
  • 如果攻击者知道水印方法的细节,可能设计针对性的去水印预处理
  • 高分辨率数据集上嵌入不可见水印更容易(因为有更多像素容纳信息),但在低分辨率数据集(如 32×32 的 CIFAR)上水印容量有限
  • 未探讨水印在模型蒸馏、迁移学习等间接使用场景下的鲁棒性
  • 可以研究将水印嵌入到特征空间而非像素空间,提升对图像级攻击的鲁棒性

相关工作与启发

  • vs 后门攻击方法 (BadNets): 后门攻击在输入中插入触发图案使模型输出特定目标类,可被后门检测工具(如Neural Cleanse、STRIP)检测并去除。Undercover Bias 的水印不改变模型的正常行为,仅添加无害的偏差学习,后门检测工具无法识别
  • vs RadioactiveData: 该方法修改特征空间使模型参数产生统计偏移,需要白盒访问模型参数来验证。Undercover Bias 只需黑盒推理即可验证,实用性更强
  • vs 数据集指纹: 指纹方法通常需要在数据集中修改少量样本的标签,可能影响数据质量。本文方法不修改标签,仅在像素级进行不可见修改

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "将模型学偏差的缺陷反转为数据保护工具"的思路非常新颖,类别级隐蔽偏差的设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多数据集多模型验证、扩展到分割任务、水印强度分析等较为充分
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,方法的多个优势属性对比明确
  • 价值: ⭐⭐⭐⭐ 数据集版权保护是实际但被忽视的重要问题,本文提供了实用解决方案

相关论文