跳转至

TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration

会议: CVPR 2026
arXiv: 2603.22882
代码: https://github.com/ChunXiaostudy/TreeTeaming
领域: AI安全
关键词: 红队测试, VLM安全, 策略探索, 越狱攻击, 自主发现

一句话总结

TreeTeaming 提出了一种自主红队框架,通过 LLM 驱动的 Orchestrator 动态构建和扩展策略树,从单个种子示例自主发现多样化的 VLM 攻击策略,在12个主流 VLM 上实现了SOTA攻击成功率(GPT-4o 上达87.60%),同时发现的策略多样性超越所有已知公开策略的并集。

研究背景与动机

  1. 领域现状:VLM 安全漏洞发现主要依赖红队测试。现有方法包括手动设计攻击模板(FigStep、MM-SafetyBench等)和自动化框架(Arondight、TRUST-VLM等)。
  2. 现有痛点:所有现有方法都受限于"预定义策略"范式——每种方法只是一种手动设计的攻击启发式的实例化。即使有反馈机制的方法(如TRUST-VLM)也只能在已建立的策略框架内细化测试用例,无法发现新策略。
  3. 核心矛盾:现有方法只能让"已知攻击更有效",而不能"系统性地发现新攻击"——漏洞探索停留在单一路径上。
  4. 本文目标:将范式从静态策略测试转变为动态策略发现——自动化发现攻击策略本身,而非仅执行预定义策略。
  5. 切入角度:用树结构组织策略层次(概念→具体策略),让LLM自主决定是深入已有路径还是探索新分支。
  6. 核心 idea:策略树 + Orchestrator动态调度(利用/探索权衡) + 多模态Actuator执行 + 失败原因分析反馈。

方法详解

整体框架

TreeTeaming 由三个协同模块组成:(1) 策略树 + Orchestrator 指导策略演化;(2) 多模态 Actuator + 策略一致性检查器创建和验证测试用例;(3) 失败原因分析模型提供系统级反馈。从单个种子示例启动,自主生长整棵策略树。

关键设计

  1. 策略树与 Orchestrator:

    • 功能:组织和追踪所有探索过的攻击策略,动态调度利用/探索
    • 核心思路:策略树是层次化知识结构——根节点(最终目标:诱导VLM生成不安全内容)、父节点(策略类别,如"认知偏差利用")、叶节点(可执行的具体策略,维护ASR和利用预算)。Orchestrator 通过动态阈值 \(\tau_{dynamic} = \max\{\tau_{initial} \cdot (1 - N_{total}/N_{max}), \tau_{min}\}\) 决定利用(深化已有高ASR策略)还是探索(发现新策略分支)。
    • 设计动机:树结构天然支持层次化组织和多路径探索,动态阈值实现从选择性探索到全面利用的平滑过渡
  2. 多模态 Actuator 与一致性检查器:

    • 功能:将抽象策略转化为具体的图文测试用例并验证有效性
    • 核心思路:Actuator 配备11种即插即用工具(文本处理、图像生成/编辑等),根据选定的叶节点策略描述生成具体攻击样本。一致性检查器验证最终样本是否与预期攻击策略一致,解决"策略漂移"问题——确保生成的测试实际执行了预定策略。
    • 设计动机:从抽象策略到具体攻击的转化容易偏离意图,一致性检查保证攻击的有效性和可归因性
  3. 失败原因分析模型:

    • 功能:分析攻击失败原因,为策略演化提供反馈
    • 核心思路:当攻击失败时,分析模型识别"主导失败模式"(如"模型检测到了排版嵌入"),将该信息附加到对应叶节点。后续利用该策略时,Orchestrator 可指导Actuator规避已知的失败模式。
    • 设计动机:形成闭环反馈,使策略演化有方向性而非盲目尝试

损失函数 / 训练策略

TreeTeaming 是推理时框架,不涉及训练。通过 LLM 推理驱动策略探索和测试用例生成。

实验关键数据

主实验

目标VLM TreeTeaming ASR% 之前最优方法 ASR% 提升
GPT-4o 87.60 对比方法 SOTA
Claude-3.5 SOTA 对比方法 显著
Gemini-1.5 SOTA 对比方法 显著
12个VLM中11个 SOTA - 全面领先

消融实验

配置 关键指标 说明
固定策略(无树) 较低ASR 仅执行预定义策略
树结构+仅利用 中等ASR 可深化但无法发现新策略
树结构+利用+探索 高ASR 利用-探索平衡效果最佳
+ 一致性检查 更高有效ASR 减少策略漂移
+ 失败分析反馈 最优 闭环反馈进一步提升

关键发现

  • TreeTeaming 发现的策略多样性超过所有已知公开越狱策略的并集
  • 生成的攻击平均毒性降低23.09%,即更隐蔽、更不易被安全过滤器检测
  • 策略树可自主从单个种子增长出丰富的攻击策略层次
  • 动态阈值的线性衰减有效实现了早期探索→后期利用的过渡

亮点与洞察

  • "发现策略本身"而非"使用预定策略"的范式转换是核心贡献——从线性优化到树状探索的质变
  • 策略多样性超越人类专家积累令人印象深刻:自主系统能发现人类未曾想到的攻击角度
  • 一致性检查器解决了生成式红队中常见的"策略漂移"问题,确保每个测试样本可追溯到具体策略

局限与展望

  • 依赖强大的LLM作为Orchestrator,成本较高
  • 发现的攻击策略可能被恶意利用,需谨慎的发布策略
  • 仅测试了安全拒绝场景,未覆盖事实错误、偏见等更广泛的安全维度
  • 策略树的规模受限于评估预算

相关工作与启发

  • vs TRUST-VLM: 在固定策略框架内自动化生成,TreeTeaming 自动化策略发现本身
  • vs FigStep/MM-SafetyBench: 单一手工策略的实例化,TreeTeaming 可自主发现包含这些策略在内的更广泛策略空间
  • vs Arondight: 遵循固定流程,策略多样性有限;TreeTeaming 通过树结构实现系统性策略探索

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从策略执行到策略发现的范式转换
  • 实验充分度: ⭐⭐⭐⭐⭐ 12个VLM大规模评估
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,动机明确
  • 价值: ⭐⭐⭐⭐⭐ 为VLM安全评估提供了新范式

相关论文