跳转至

Manipulating Feature Visualizations with Gradient Slingshots

会议: NeurIPS 2025
arXiv: 2401.06122
代码: 有
领域: AI安全 / 可解释性
关键词: feature visualization, adversarial, interpretability, gradient slingshot, XAI

一句话总结

提出梯度弹弓攻击,通过利用分布外梯度轨迹操纵神经网络特征可视化结果,无需修改模型参数,揭示特征可视化作为解释性工具的脆弱性。

研究背景与动机

特征可视化是理解神经网络内部表示的重要工具。本文发现可以通过精心设计的优化起点操纵可视化结果,使其显示任意预定图像。

方法详解

整体框架

通过微调 DNN 在分布外区域刻画激活景观,创建"弹弓区域"(优化初始化区域)和"着陆区域"(目标区域),使特征可视化优化从弹弓区域出发收敛到预设的任意目标图像。

关键设计

  1. 梯度场操纵损失 (Gradient-field Manipulation Loss)
  2. 微调模型使分布外区域的梯度指向预设的着陆区域
  3. 在着陆区域附近创建高激活值的吸引盆——特征可视化优化会被"吸引"到这里

  4. 保留损失 (Preservation Loss)

  5. 确保模型在分布内数据上的分类性能不变
  6. 内部表示也尽量保持——变化仅发生在分布外区域

  7. 弹弓 + 着陆机制

  8. 弹弓区域:特征可视化通常从随机噪声(分布外)开始优化——这就是弹弓区域
  9. 着陆区域:被操纵为显示任意目标图像——优化"滑向"预设目标

  10. 防御机制:论文同时提出了有效的检测防御——比较多个随机初始化的可视化结果一致性

实验关键数据

评估维度 结果
CNN 操纵 成功——可视化显示任意目标
Vision Transformer 操纵 成功——跨架构通用
分类准确率变化 极小——模型性能几乎不受影响
内部表示变化 极小——仅分布外区域被修改
检测防御有效性 可检测——多初始化一致性检测有效

关键发现

  • 特征可视化的结果取决于优化路径经过的梯度景观——而分布外区域的景观可被任意操纵
  • 模型所有者可以"伪造"可解释性报告——这对 XAI 审计是严重威胁
  • 但多初始化检测提供了有效防御

亮点与洞察

  • 对 XAI 可信度的根本质疑:如果特征可视化可以被操纵显示任何东西,它还能作为模型审计工具吗?
  • 分布内 vs 分布外的分离:攻击仅在分布外(优化起点)操纵,分布内完全不变——这使攻击极难通过常规测试发现
  • 同时提出攻击和防御:负责任地揭示问题并提供解决方案

局限性 / 可改进方向

  • 需要白盒访问(能微调模型)
  • 仅影响基于优化的特征可视化,不影响梯度类方法(如 GradCAM)
  • 改进方向:(1) 研究是否可在黑盒设置下实现类似攻击;(2) 开发更鲁棒的可视化方法

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 对解释性工具的安全性发起根本质疑
  • 实验充分度: ⭐⭐⭐⭐ CNN+ViT 跨架构验证+防御机制
  • 写作质量: ⭐⭐⭐⭐ 问题阐述清晰
  • 价值: ⭐⭐⭐⭐⭐ XAI 安全审计的重要警示,对可信 AI 意义重大