PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection¶

会议: CVPR 2025
arXiv: 2406.05826
代码: GitHub
领域: AI安全 (AI Safety / Backdoor Detection)
关键词: 后门检测, 预测偏移, Dropout不确定性, 神经元偏置, 对抗鲁棒性

一句话总结¶

提出 PSBD 方法，发现被植入后门的模型在推理时开启 dropout 后，干净数据的预测会偏移向目标类别而后门数据预测保持稳定（Prediction Shift 现象），基于此设计 Prediction Shift Uncertainty (PSU) 指标实现 SOTA 后门训练数据检测。

研究背景与动机¶

深度神经网络容易受到后门攻击——攻击者在训练数据中插入含有特定触发器的恶意样本，使模型在遇到触发器时做出攻击者指定的错误预测，而在正常输入上表现正常。后门攻击的隐蔽性使其在安全关键领域（自动驾驶、医疗等）构成严重威胁。

现有防御策略主要集中在三个方向：模型重构（去除后门影响）、模型检测（判断模型是否被植入后门）、和毒化抑制。但在最源头的后门训练数据检测方向，现有方法普遍面临两个问题：要么 TPR（真正率）低——漏检后门样本，要么 FPR（假正率）高——误删干净样本。现有方法如 Spectral Signatures、STRIP、Scale-up 主要在数据层面操作（改变输入、分析表征），未充分利用模型本身的内在属性。

本文提供了一个全新视角——模型预测不确定性。作者发现了一个引人注目的 Prediction Shift (PS) 现象：在推理阶段开启 dropout 后，被投毒模型对干净数据的预测会从正确标签偏移到目标类别，而后门数据的预测保持稳定。这种现象源于"神经元偏置"效应——训练过程中某些神经元路径变得偏向特定类别。基于此洞察，PSBD 通过计算 PSU 实现了简单高效的后门数据检测。

方法详解¶

整体框架¶

PSBD 的工作流程：（1）在可疑训练集上用标准监督学习训练模型（可选数据增强）；（2）通过自适应策略选择合适的 dropout rate \(p\)；（3）对训练数据和少量无标签干净验证数据计算 PSU 值；（4）基于阈值 \(T\)（验证集 PSU 的第 25 百分位）将 PSU 低于阈值的样本判定为后门样本。

关键设计¶

Prediction Shift (PS) 现象发现:
- 功能：揭示干净数据与后门数据在开启 dropout 后的行为差异
- 核心思路：定义预测偏移函数 \(\phi_{PS}(\mathbf{x}) = \mathbb{I}(\mathcal{Y}(\mathbf{x};\boldsymbol{\theta}) \neq \mathcal{Y}(\mathbf{x};\boldsymbol{\theta}'))\)，以及偏移率 \(\sigma(\mathcal{D}) = \frac{1}{k|\mathcal{D}|}\sum_{\mathbf{x} \in \mathcal{D}} \phi_{PS}(\mathbf{x})\)。实验发现：在合适的 dropout rate \(p\) 下，干净数据的 \(\sigma\) 达到约 0.8 且几乎全部偏移到攻击目标类别，而后门数据的 \(\sigma\) 接近 0。这种差异在 BadNets、WaNet 等多种攻击下一致存在
- 设计动机：标准 MC-Dropout 不确定性（标准差）在高级攻击（如 WaNet）下失效，PS 现象提供了更鲁棒的区分信号
神经元偏置效应（Neuron Bias Effect）:
- 功能：解释 PS 现象的机制
- 核心思路：后门训练使网络中某些路径偏向目标类别。无 dropout 时，干净数据有足够特征做正确预测；开启 dropout 后，关键区分特征被丢弃，模型依赖训练形成的神经元偏置，将干净数据分到目标类别。后门数据的触发器特征更稳定和显著，即使部分特征被 dropout 丢弃仍能正确分类到目标类别。作者通过可视化最后一层 512 个 feature map 验证：开启 dropout 后干净图和后门图的特征变得几乎完全相同
- 设计动机：为 PS 现象提供理论解释，增强方法的可信度和可解释性
Prediction Shift Uncertainty (PSU) 检测方法:
- 功能：量化预测偏移强度用于后门检测
- 核心思路：PSU 计算无 dropout 时最高置信类别 \(c\) 的置信度与 \(k\) 次 dropout 推理中该类别平均置信度的差值：\(\phi_{PSU}(\mathbf{x}) = P_c(\mathbf{x};\boldsymbol{\theta}) - \frac{1}{k}\sum_{i=1}^{k}P_c(\mathbf{x};p,\boldsymbol{\theta}_i')\)。干净数据 PSU 值高（预测偏移大），后门数据 PSU 值低（预测稳定）。阈值 \(T\) 设为验证集 PSU 的第 25 百分位；dropout rate \(p\) 通过自适应策略选择——找到验证集 \(\sigma\) 接近 0.8 且训练集/验证集偏移率差异最大的 \(p\) 值
- 设计动机：不仅考虑标签变化（PS），还考虑置信度变化，捕获更细粒度的信号（某些干净样本标签不变但置信度显著下降）

损失函数 / 训练策略¶

标准交叉熵损失: 在可疑训练集上正常训练
Dropout 位置: 在 ResNet 每个残差连接后、激活函数前添加 dropout 层
推理次数: \(k=3\) 次前向推理
数据增强: 当模型泛化能力不足时使用（如 Tiny ImageNet、Adaptive-Blend），可增强神经元偏置
模型选择: 使用训练后期模型（增强数据拟合和神经元偏置路径）

实验关键数据¶

主实验¶

CIFAR-10 数据集（10% 投毒率，TPR↑ / FPR↓）：

攻击方法	PSBD (Ours)	SS	STRIP	SCAN	SCP	CD-L
BadNets	1.000/0.104	0.389/0.512	1.000/0.113	1.000/0.009	1.000/0.205	0.998/0.158
WaNet	1.000/0.116	0.456/0.505	0.050/0.101	0.891/0.034	0.869/0.251	0.863/0.144
Adaptive-Blend	0.982/0.184	0.608/0.145	0.014/0.069	0.000/0.023	0.721/0.257	0.432/0.167
Average	0.994/0.136	0.439/0.456	0.689/0.107	0.832/0.013	0.899/0.244	0.855/0.157

消融实验¶

配置	说明
MC-Dropout 标准差	在 WaNet 等攻击下失效，后门/干净不确定性接近
PS（仅标签变化）	有效但粒度不够，部分干净样本标签不变但置信度变化大
PSU（标签+置信度）	最细粒度，覆盖率最高
无数据增强 (Tiny ImageNet)	模型泛化不足时检测效果下降
有数据增强 (Tiny ImageNet)	增强神经元偏置，显著提升检测效果

关键发现¶

PSBD 在 7 种攻击 × 3 个数据集上平均 TPR 最高，尤其在高级攻击（WaNet、Adaptive-Blend）上优势巨大——STRIP 在 WaNet 上 TPR 仅 0.050，SCAN 在 Adaptive-Blend 上 TPR 为 0
仅需 5% 训练集大小的无标签干净验证数据
PS 偏移方向几乎全部指向攻击目标类别（class 0），这一规律性令人惊讶
数据增强可以增强神经元偏置效应，有助于检测

亮点与洞察¶

Prediction Shift 现象的发现极具启发性：dropout 使干净数据"坠入"后门目标类别的引力场，这揭示了后门攻击在权重空间中留下的深刻痕迹，为理解后门机制提供了新视角
方法极其简洁实用：仅需在推理时开启 dropout 做 3 次前向传播计算 PSU，不需要额外训练任何辅助模型或优化触发器模板，时间开销极小
对高级攻击的鲁棒性突出：在 STRIP 和 SCAN 完全失效的 WaNet 和 Adaptive-Blend 上仍保持 >0.98 的 TPR

局限与展望¶

FPR 偏高（平均约 13-20%），可能误删部分干净训练数据
dropout rate \(p\) 的自适应选择依赖启发式阈值（\(\sigma\) 接近 0.8），在某些场景下可能不准确
在 Tiny ImageNet 等复杂数据集上需要配合数据增强才能获得好效果
未验证在更大规模模型（如 ViT-Large）和更多样化攻击下的表现

评分¶

新颖性: ⭐⭐⭐⭐⭐ PS 现象发现和神经元偏置假设极具原创性
实验充分度: ⭐⭐⭐⭐ 7 种攻击 × 3 数据集 × 6 种 baseline，10 次重复实验
写作质量: ⭐⭐⭐⭐ 从 pilot study 到发现再到方法的叙事逻辑流畅
价值: ⭐⭐⭐⭐⭐ 简洁高效的方法在高级攻击检测上取得突破性进展