跳转至

Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent

会议: NeurIPS 2025
arXiv: 2510.21704
代码: https://christykl.github.io/saia-website/
领域: 可解释性
关键词: visual attribute reliance, self-reflective agent, interpretability, hypothesis testing, bias detection

一句话总结

提出一个自反思 agent 框架,通过迭代的假设生成-测试-验证-反思循环来自动检测视觉模型中的属性依赖(如 CLIP 识别 teacher 依赖教室背景、YOLOv8 检测行人依赖人行横道),在 130 个注入已知属性依赖的模型 benchmark 上显示自反思显著提升检测准确性。

研究背景与动机

  1. 领域现状:视觉模型可能依赖非鲁棒的视觉属性(如颜色、背景、人脸特征)做预测。现有可解释性方法主要是 saliency map、特征可视化和基于概念的归因。
  2. 现有痛点:(1) Saliency 方法只能高亮区域,不能给出语义描述;(2) 概念归因方法需要预定义概念集,限制了发现新属性的能力;(3) 这些方法主要是相关性的,缺乏因果验证。
  3. 核心矛盾:需要自动、可扩展、不依赖预定义概念的方法来发现模型可能依赖的任意视觉属性。
  4. 本文要解决什么? 给定一个预训练视觉模型和目标概念,自动识别影响模型预测的视觉属性。
  5. 切入角度:将属性发现视为科学发现过程——agent 自主提出假设、设计实验(生成测试图像)、观察结果、反思并修正假设。
  6. 核心 idea 一句话:用多模态 LLM 实现的自反思 agent 像科学家一样迭代地假设-实验-验证-反思,自动发现视觉模型的属性依赖。

方法详解

整体框架

目标概念 + 模型 -> agent 生成属性假设 -> 生成测试图像(有/无该属性) -> 获取模型分数 -> 验证假设是否解释模型行为 -> 不一致时反思并修正假设 -> 输出最终属性描述。

关键设计

  1. 假设生成与测试:
  2. 做什么:agent 自主提出"模型可能依赖什么属性"的假设。
  3. 核心思路:多模态 LLM(backbone agent)基于目标概念和已有观察提出候选属性假设,然后生成两组图像——一组有该属性(预期模型高分),一组无该属性(预期模型低分)。比较实际分数与预期。
  4. 设计动机:不需要预定义概念集——agent 可以提出任何自然语言描述的属性假设。

  5. 自反思协议:

  6. 做什么:当验证结果与假设不一致时,agent 反思并修正假设。
  7. 核心思路:如果模型分数与预期不匹配(如"背景=教室"假设解释了大部分但非全部行为),agent 分析失败案例,识别假设的不足(如忽略了"站姿"因素),提出更精确的假设,开始新一轮测试。
  8. 设计动机:单次发现往往不够准确——科学发现需要迭代精炼。实验证明每轮反思都提升检测准确率。

  9. 自我评估(Self-Evaluation):

  10. 做什么:在无 ground-truth 的情况下评估发现的可靠性。
  11. 核心思路:agent 生成新的测试图像对(有/无属性),检查模型行为是否与预测一致。不需要任何关于模型真实依赖的先验知识。
  12. 设计动机:真实场景中不知道模型到底依赖什么——评估必须是自包含的。

损失函数 / 训练策略

无训练。使用多模态 LLM(如 GPT-4V)作为 backbone。

实验关键数据

主实验(130 模型注入 benchmark)

方法 检测准确率 自反思轮数
Non-reflective baseline 低于70% 0
Self-reflective agent (1 round) 改善 1
Self-reflective agent (3 rounds) 显著最优 3

真实模型发现

模型 目标概念 发现的属性依赖
CLIP-ViT teacher 依赖教室背景
YOLOv8 pedestrian 依赖人行横道存在
Controlled model vase 依赖花朵

关键发现

  • 自反思持续提升检测准确率:每轮反思都带来显著改善。
  • 发现了 CLIP 和 YOLOv8 中的未报告属性依赖:CLIP 用教室背景识别 teacher,YOLOv8 用人行横道检测行人——这些都是潜在的鲁棒性风险。
  • Benchmark 覆盖 18 种属性依赖类型:包括颜色、材质、背景、共现物体、人口统计等。
  • 模型无关:可应用于任何输出分数的视觉模型。

亮点与洞察

  • 将可解释性问题转化为科学发现过程是优雅的框架:假设-实验-验证-反思循环与科学方法论完美对应。
  • 自我评估协议解决了"如何在不知道真相的情况下验证发现"的根本困难。
  • 130 模型 benchmark是有价值的资源:可供未来可解释性方法评估。
  • 实际发现(CLIP 和 YOLOv8)展示了方法的现实价值。

局限性 / 可改进方向

  • 依赖强多模态 LLM(如 GPT-4V)的能力。
  • 图像生成的质量可能影响测试的可靠性。
  • 只检测单一属性依赖,未处理多属性交互。

相关工作与启发

  • vs MAIA: MAIA 做模型内部特征解释,本文做外部行为属性检测。
  • vs Saliency Maps: Saliency 给区域,本文给自然语言级的属性描述。
  • vs OpenBias: OpenBias 针对生成模型,本文针对判别模型。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 自反思 agent 做可解释性的新范式
  • 实验充分度: ⭐⭐⭐⭐⭐ 130 模型 benchmark + 真实模型发现
  • 写作质量: ⭐⭐⭐⭐⭐ 清晰,科学发现隐喻贯穿全文
  • 价值: ⭐⭐⭐⭐⭐ 实用且有深度的可解释性工具