跳转至

EvoGuard: An Extensible Agentic RL-based Framework for Practical AI-Generated Image Detection

日期: 2026-03-18
arXiv: 2603.17343
领域: 多模态/VLM / AI安全
关键词: AI生成图像检测, 智能体框架, 工具调用, GRPO, 即插即用

一句话总结

提出 EvoGuard,将异构 AIGI 检测器封装为可调用工具,用 MLLM Agent 通过能力感知的动态编排机制多轮调用和推理,仅需二值标签的 GRPO 训练,实现 SOTA 检测精度和无需重训练的即插即用可扩展性。

研究背景与动机

  1. 领域现状: AI 生成图像(AIGI)检测面临生成模型快速迭代、社交媒体图像退化、对抗攻击等挑战。现有方法包括低级特征分析、预训练视觉编码器、MLLM 推理等。

  2. 现有痛点: (a) 单一检测器难以应对所有生成器——有的擅长捕捉频域特征,有的擅长语义推理,没有"万能选手";(b) MLLM 方法需要大量细粒度标注数据(描述为什么是假的);(c) 集成方法(MoE、投票)是静态的,添加新检测器需要重训练。

  3. 核心矛盾: 生成模型不断进化,检测系统必须持续跟进——但每次出现新生成器就重新训练检测模型成本太高。

  4. 切入角度: 与其不断造更强的单体检测器,不如把各种现有检测器封装为工具,让 Agent 智能调度它们——取长补短,且新工具即插即用无需重训。

  5. 核心 idea: MLLM Agent + 异构检测工具 + 能力感知动态编排 + GRPO 训练(仅二值标签)。

方法详解

整体框架

  1. 工具封装: 将 SOTA 检测器(MLLM 和非 MLLM)封装为可调用工具,每个工具有能力档案
  2. 能力感知选择: 给输入图像打标签(主题/质量/风格),匹配最合适的工具集
  3. 动态编排: 多轮循环——调用工具 → 分析结果 → 决定继续调用或给出结论
  4. GRPO 训练: 仅用二值标签(真/假)训练 Agent 的调度和推理能力

关键设计

  1. 工具能力档案 (Tool Profile):

    • 做什么:描述每个检测器的能力特征——擅长什么、不擅长什么、冲突时参考什么
    • 四个维度:总览 (overall)、优势 (strengths)、弱点 (weaknesses)、冲突提示 (conflict hints)
    • 用三个标签维度区分图像类型:主题 (Subject)、质量 (Quality)、风格 (Style)
    • 设计动机:让 Agent 做有信息的选择而非盲目调用所有工具。档案用模糊语言描述("擅长高质量人脸"而非定量数值),保留 Agent 的推理灵活度
  2. 动态编排机制:

    • 做什么:多轮调用+反思决策
    • 流程:Round 1 调用初始工具集 → 分析结果 → 如果工具意见冲突或置信度低 → 继续调用更多工具 → 直到 Agent 判断证据充分 → 给出最终结论
    • 设计动机:单轮调用可能遭遇工具冲突(一个说真一个说假),需要 Agent 能"反思"并主动寻求更多证据——这正是 Agent 范式优于静态集成的地方
  3. GRPO Agentic RL 训练:

    • 做什么:仅用二值标签训练 Agent 的调度和推理能力
    • 奖励函数:准确性奖励(判对 +1,判错 -1)+ 格式奖励 + 反思质量奖励
    • 设计动机:传统 MLLM 检测器需要细粒度标注("图片中手指有6根,物理不合理"),获取成本高。GRPO + 二值标签大幅降低数据需求
  4. 即插即用扩展:

    • 做什么:零重训练地添加新检测器
    • 流程:为新工具写能力档案 → 加入工具集 → Agent 自动在后续推理中考虑该工具
    • 设计动机:生成模型迭代快,检测系统必须能快速适配新威胁

实验关键数据

检测精度

  • EvoGuard 在多个 AIGI 检测基准上达到 SOTA 准确率
  • 关键优势:在正负样本之间实现更均衡的性能——不像某些方法严重偏向某一类
  • 超越各个单体工具的最优表现——"整体大于部分之和"

即插即用扩展验证

工具数量 性能变化
基础工具集 baseline
+1 新工具 性能提升(无需重训)
+2 新工具 进一步提升

添加新检测器 → 零重训练 → 性能自动提升。

消融实验

配置 效果
无能力档案(随机选工具) 显著下降
单轮调用(无动态编排) 下降
无 GRPO(纯 SFT) 下降
无反思机制 下降

亮点与洞察

  • 范式转换:从"造更强检测器"到"协调现有检测器"——这是应对快速进化威胁的更可持续策略。类似于人类专家团队协作优于单个超级专家。
  • 能力档案的模糊设计:用语言而非数值描述工具能力,保留 Agent 推理灵活度——因为训练集分布与实际部署不同,精确数值反而有害。
  • 二值标签足够:不需要"这张图是AI生成的因为手指有6根"这样的细粒度标注——只需要"真/假",GRPO 就能涌现出有效的工具调度策略。
  • 实用性极强:新生成模型出现 → 社区开发新检测器 → 写个档案加到工具集 → 无需重训练 → 检测系统自动进化。

局限性 / 可改进方向

  • 多轮调用增加延迟:动态编排需要多次工具调用+Agent 推理,部署延迟可能不适合实时场景
  • 工具档案需要人工编写:虽然有 LLM 辅助,但仍需人工验证和修改
  • Agent 推理质量依赖基座模型:如果 MLLM 本身推理能力弱,动态编排的决策质量会下降
  • 假设工具输出互补:如果所有工具在同类图像上都失败,Agent 也无法挽救

相关工作与启发

  • vs Forensic-MoE: MoE 用 MLP 融合多检测器输出——静态融合,添加新检测器需重训。EvoGuard 用 Agent 动态编排——无需重训
  • vs X2-DFD: 管道式(非MLLM输出→MLLM),但不够灵活。EvoGuard 的多轮反思机制更智能
  • 启发:这种"Agent + 工具集"的范式可推广到任何需要持续演化的检测任务(如 deepfake 视频、恶意代码检测等)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Agent 范式用于 AIGI 检测是全新视角,即插即用扩展性是杀手级特性
  • 实验充分度: ⭐⭐⭐⭐ 多基准 + 即插即用验证 + 消融
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,与现有方法的对比表格直观
  • 价值: ⭐⭐⭐⭐⭐ 提供了应对 AIGI 威胁的长期可持续方案