跳转至

Test-Time Backdoor Detection for Object Detection Models

会议: CVPR 2025
arXiv: 2503.15293
代码: 无
领域: 目标检测 / AI安全
关键词: 后门攻击检测, 目标检测, 测试时防御, 变换一致性, 黑盒检测

一句话总结

TRACE(TRAnsformation Consistency Evaluation)提出了首个面向目标检测模型的测试时后门样本检测方法,基于两个关键观察——中毒样本在不同背景下检测结果更一致、干净样本在不同聚焦信息下更一致——通过对前景和背景施加变换后计算目标置信度方差来检测中毒样本,实现黑盒通用检测,AUROC 比 SOTA 提升 30%。

研究背景与动机

领域现状:深度学习目标检测模型被广泛部署在自动驾驶、安防监控等安全攸关场景。模型训练可能外包或使用第三方数据集,存在被注入后门(backdoor)的风险。后门攻击通过在少量训练样本中嵌入预定义触发器(trigger),使模型在推理时遇到该触发器就产生异常行为。

现有痛点:针对图像分类的后门检测已有不少工作,但目标检测的后门检测几乎空白。目标检测的后门攻击效果比分类复杂得多:(1) "幽灵"物体攻击——触发器导致模型凭空检测出不存在的目标;(2) "消失"物体攻击——触发器导致模型漏检真实存在的目标。这些复合效应使现有分类后门检测方法完全失效。

核心矛盾:分类后门检测方法通常关注输出类别的翻转模式,而目标检测输出的是数量不定的检测框集合,输出空间的结构性差异使得现有检测指标无法直接迁移。

本文目标:设计一个测试时黑盒后门检测方法,能在不访问模型参数的情况下判断输入样本是否包含后门触发器,且对多种目标检测后门攻击类型都有效。

切入角度:作者从对抗变换的角度出发,发现了两个中毒/干净样本在目标检测输出上的行为差异。(1) 后门触发器的效果不受背景变化影响——即使替换图像背景,触发器仍然生效,因此中毒样本在不同背景下的检测结果高度一致;(2) 干净样本的检测结果依赖真实视觉内容,当聚焦不同区域时,检测结果会自然变化,表现出更高的一致性。

核心 idea:对每个测试样本施加前景/背景变换,然后计算变换后检测结果的一致性(置信度方差),中毒样本一致性高(方差小)则标记为可疑。

方法详解

整体框架

TRACE 的输入是一个待检测的测试图像和一个黑盒目标检测模型,输出是该图像是否为中毒样本的判断(及对应的异常分数)。流程为三步:(1) 对输入图像分别施加前景变换和背景变换,生成多个变换版本;(2) 将所有变换版本送入目标检测模型,收集各版本的检测结果(框、类别、置信度);(3) 计算检测结果在变换间的一致性分数,据此判断是否中毒。

关键设计

  1. 背景变换(Background Transformation):

    • 功能:测试触发器效果是否独立于背景内容
    • 核心思路:对输入图像进行前景/背景分离(可使用现成的分割模型或简单的显著性检测),然后替换背景为不同的随机图像或纯色背景,生成 \(N\) 个不同背景版本的图像。所有版本送入检测器后,统计每个检测框的置信度在 \(N\) 个版本间的方差 \(\sigma^2_{bg}\)关键观察:中毒样本的触发器通常在前景中,背景替换不影响触发器,因此检测结果非常一致(\(\sigma^2_{bg}\) 小);干净样本的检测结果依赖整体场景上下文,背景变化会影响检测置信度(\(\sigma^2_{bg}\) 大)
    • 设计动机:后门触发器是一种与场景语义无关的局部模式,其激活不依赖全局上下文,这一特性可以通过背景替换来暴露
  2. 前景变换(Foreground Transformation):

    • 功能:测试检测结果是否依赖于真实视觉内容
    • 核心思路:对输入图像进行局部前景遮挡或裁剪,生成 \(M\) 个版本。每个版本保留不同的前景区域,送入检测器后统计置信度方差 \(\sigma^2_{fg}\)关键观察:干净样本的目标检测依赖真实目标的视觉特征,遮挡不同区域会导致检测结果变化较大(\(\sigma^2_{fg}\) 大);而中毒样本的异常检测结果主要由触发器驱动,只要触发器区域未被遮挡,结果就保持稳定(\(\sigma^2_{fg}\) 小)
    • 设计动机:与背景变换互补——背景变换检测的是"触发器不受背景影响"的性质,前景变换检测的是"检测结果不依赖真实目标"的性质。两者结合提供更全面的判断
  3. 一致性评分与决策(Consistency Scoring):

    • 功能:将变换一致性量化为异常分数
    • 核心思路:对每个测试样本,综合前景和背景变换下的检测结果一致性。具体公式为:\(S = \lambda \cdot (1/\sigma^2_{bg}) + (1-\lambda) \cdot (1/\sigma^2_{fg})\),其中 \(\lambda\) 为权衡系数。分数越高,样本是中毒的可能性越大。最终通过设定阈值或使用异常检测算法来做二分类决策
    • 设计动机:使用方差的倒数作为一致性度量,直观且计算简单。结合前景和背景两个维度的信息可以降低误判率

损失函数 / 训练策略

TRACE 是测试时方法,不需要训练。整个过程是纯推理时的黑盒操作,只需要能查询目标检测模型的输入输出接口。

实验关键数据

主实验

在 PASCAL VOC 和 MS COCO 数据集上评估,针对多种目标检测后门攻击(幽灵物体攻击、消失物体攻击、误分类攻击),使用 Faster R-CNN、YOLO 等检测器。

方法 VOC Ghost (AUROC) VOC Vanish (AUROC) COCO Ghost (AUROC) COCO Vanish (AUROC)
STRIP (分类改编) 52.3 55.1 50.8 53.2
SentiNet 58.7 54.2 56.1 52.9
Spectral Signature 61.4 59.8 58.3 56.7
TRACE 93.1 89.7 91.2 87.5

消融实验

配置 AUROC (VOC avg) 说明
TRACE (bg + fg) 91.4 完整方法,两种变换结合
bg 变换 only 86.2 仅用背景变换,掉5.2%
fg 变换 only 83.7 仅用前景变换,掉7.7%
N=3 变换版本 85.6 减少变换次数,检测能力下降
N=10 变换版本 91.4 足够的变换次数
N=20 变换版本 91.8 边际收益递减

关键发现

  • TRACE 比现有最佳检测方法 AUROC 提升约 30 个百分点,说明从分类任务直接改编的方法确实不适用于目标检测
  • 背景变换和前景变换的贡献是互补的,组合使用效果最好;背景变换对"幽灵物体"攻击更有效,前景变换对"消失物体"攻击更关键
  • 变换次数 \(N\) 在 10 左右达到饱和,增加更多变换的收益有限
  • 在对抗性适应攻击(adaptive attacks)下,TRACE 仍保持较好的鲁棒性;攻击者要规避 TRACE 需要同时让触发器对前景和背景变换都敏感,这与触发器的稳定激活目标矛盾

亮点与洞察

  • 两个观察(背景一致性 + 前景独立性)非常精准地抓住了后门触发器的本质特征:触发器是一种与语义无关的快捷方式(shortcut),这正好意味着它与上下文解耦。这个洞察本身就是一个重要的理论贡献
  • 黑盒+无需训练的检测范式非常实用:在真实场景中,模型通常以 API 形式部署,检测方只有输入输出权限。TRACE 完全满足这一约束
  • 该方法理论上可以推广到实例分割等其他目标级任务的后门检测

局限与展望

  • 前景/背景分离依赖现有分割方法的质量,分割不准确可能影响检测效果
  • 对不在前景中而是嵌入在背景中的触发器(如全局扰动型触发器),背景变换可能失效
  • 计算开销随变换次数线性增长,\(N=10\) 意味着每个样本需要做 10 次以上推理
  • 未考虑 clean-label 攻击(触发器在训练时不改变标签的攻击方式),这类攻击的行为模式可能不同

相关工作与启发

  • vs STRIP: STRIP 通过叠加多个图像来检测分类后门,依赖输出熵的变化。但这种方法在检测框数量变化的情况下不适用
  • vs SentiNet: SentiNet 通过定位可疑区域来检测触发器,但它需要白盒访问中间特征图。TRACE 完全黑盒
  • vs Neural Cleanse: Neural Cleanse 通过优化反向工程触发器,需要大量干净样本和模型参数。TRACE 是逐样本的测试时方法,不需要额外数据

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个面向目标检测的测试时后门检测方法,两个核心观察深刻且新颖
  • 实验充分度: ⭐⭐⭐⭐ 多种攻击类型、多个数据集、多个检测器,且评估了适应性攻击
  • 写作质量: ⭐⭐⭐⭐ 观察→方法→验证的逻辑链清晰
  • 价值: ⭐⭐⭐⭐⭐ 填补了目标检测后门检测的空白,方法简洁实用,对部署安全有直接意义

相关论文