Perturbation-Induced Linearization: Constructing Unlearnable Data with Solely Linear Classifiers¶

会议: ICLR 2026
arXiv: 2601.19967
代码: GitHub
领域: 其他
关键词: 不可学习样本, 数据保护, 线性化, 快捷学习, 对抗扰动

一句话总结¶

提出PIL方法，仅使用无偏置线性分类器作为代理模型生成不可学习扰动，通过诱导深度模型线性化来阻止其学习语义特征，比现有方法快100倍以上（CIFAR-10上不到1分钟GPU时间）。

研究背景与动机¶

核心矛盾¶

核心矛盾：领域现状：将网络数据用于训练深度学习模型的行为越来越普遍，但许多数据是在未经创作者同意的情况下被爬取的。不可学习样本（Unlearnable Examples）通过向数据添加不可察觉的扰动，使在扰动数据上训练的模型无法泛化到干净测试数据，从而保护数据不被未授权使用。

现有方法（如EM、REM）通常用深度网络作为代理模型生成扰动，计算代价极高（REM在CIFAR-10上需15+小时GPU时间）。一个自然的问题是：是否可以用更简单的模型生成同样有效的扰动？

更深层的问题是：不可学习样本的有效性机制是什么？ 本文发现答案是线性化诱导——扰动迫使深度模型表现得像线性模型，从而丧失学习复杂语义特征的能力。

方法详解¶

整体框架¶

PIL使用两步流程：(1) 在干净数据上训练一个无偏置线性分类器；(2) 用该线性分类器优化扰动，使扰动同时满足两个目标——语义混淆和快捷学习。最终将扰动减去原始图像作为不可学习数据集。

关键设计¶

语义混淆（Semantic Obfuscation）:
- 功能：使原始图像的语义信息在扰动后变得无用
- 核心思路：优化 \(\delta_1\) 使 \(f_{lin}(x - \delta_1)\) 输出接近均匀分布（最小化KL散度）
- 设计动机：当深度模型线性化后，x-δ部分不再携带有用的分类信息
快捷学习（Shortcut Learning）:
- 功能：使扰动本身成为强类别信号
- 核心思路：优化 \(\delta_2\) 使线性模型能直接从 \(\delta_2\) 准确预测标签（最小化交叉熵）
- 设计动机：深度模型会"偷懒"学习扰动中的快捷方式而非图像的语义特征
联合优化:
- 功能：将两个目标合并为单一优化
- 核心思路：\(L_{total} = \lambda L_{CE}(f_{lin}(\delta), y) + (1-\lambda) L_{KL}(f_{lin}(x-\delta), \text{uniform})\)，\(\lambda=0.9\)偏重快捷学习
- 设计动机：实际中优化一个扰动δ而非分别优化δ₁和δ₂
- 关键细节：使用PGD式更新，步长α=8/2550，预训练线性模型后再优化扰动

损失函数 / 训练策略¶

先在干净数据上用SGD训练M轮线性模型（捕获数据语义结构）
然后N轮PGD更新每个样本的扰动，限制L∞≤8/255
从均匀分布[-ε,ε]初始化扰动

实验关键数据¶

主实验：不同数据集和模型上的测试精度（越低越好）¶

模型	SVHN-干净	SVHN-PIL	CIFAR10-干净	CIFAR10-PIL	ImageNet100-干净	ImageNet100-PIL
ResNet-18	95.64	15.94	92.11	12.77	66.00	2.26
VGG-19	95.22	9.12	90.61	15.22	36.04	1.36
MobileNet-V2	95.95	28.48	91.94	14.05	71.26	2.20

消融实验：数据增强下的鲁棒性（CIFAR-10测试精度↓）¶

方法	无增强	Basic	Rotation	Cutout	CutMix
PIL	14.70	12.87	18.15	14.62	11.05
SEP	28.43	8.94	19.68	9.74	10.48
TAP	35.90	19.11	21.18	15.09	20.30

关键发现¶

PIL在CIFAR-10上仅需不到1分钟GPU时间，而REM需要15+小时，加速超过100倍
线性模型生成的扰动能有效降低多种深度架构的泛化能力，证明了架构无关性
所有不可学习方法（包括非线性代理的EM、REM等）都会导致训练模型线性度增加，PIL只是把这个机制推到了极致
在高分辨率ImageNet-100上测试精度降至1-3%，效果甚至更好
PIL在JPEG压缩防御下仍保持较强鲁棒性

亮点与洞察¶

核心洞察极其优美：不可学习样本的本质机制是诱导线性化——既然如此，直接用线性模型做代理就够了
将复杂的不可学习样本问题简化为线性模型+PGD优化，大幅降低了实现和计算门槛
语义混淆+快捷学习的双目标分解直观且有效
还揭示了一个部分扰动的基本限制：不可学习样本在仅部分数据被扰动时无法显著降低测试精度

局限与展望¶

对抗性训练（adversarial training）作为防御仍可能削弱PIL的效果
部分扰动场景下（只有一部分数据被保护），保护效果急剧下降
未测试文本/音频等非图像模态
线性化机制的理论解释仍是经验性的

评分¶

新颖性: ⭐⭐⭐⭐⭐ "用线性模型就够了"的发现出人意料且优美
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多架构、多防御手段全面对比
写作质量: ⭐⭐⭐⭐ 动机清晰，方法简洁
价值: ⭐⭐⭐⭐⭐ 既有实用价值（100x加速），也有理论洞察（线性化机制）