EvoGuard: An Extensible Agentic RL-based Framework for Practical AI-Generated Image Detection¶

日期: 2026-03-18
arXiv: 2603.17343
领域: 多模态/VLM / AI安全
关键词: AI生成图像检测, 智能体框架, 工具调用, GRPO, 即插即用

一句话总结¶

提出 EvoGuard，将异构 AIGI 检测器封装为可调用工具，用 MLLM Agent 通过能力感知的动态编排机制多轮调用和推理，仅需二值标签的 GRPO 训练，实现 SOTA 检测精度和无需重训练的即插即用可扩展性。

研究背景与动机¶

领域现状: AI 生成图像（AIGI）检测面临生成模型快速迭代、社交媒体图像退化、对抗攻击等挑战。现有方法包括低级特征分析、预训练视觉编码器、MLLM 推理等。
现有痛点: (a) 单一检测器难以应对所有生成器——有的擅长捕捉频域特征，有的擅长语义推理，没有"万能选手"；(b) MLLM 方法需要大量细粒度标注数据（描述为什么是假的）；(c) 集成方法（MoE、投票）是静态的，添加新检测器需要重训练。
核心矛盾: 生成模型不断进化，检测系统必须持续跟进——但每次出现新生成器就重新训练检测模型成本太高。
切入角度: 与其不断造更强的单体检测器，不如把各种现有检测器封装为工具，让 Agent 智能调度它们——取长补短，且新工具即插即用无需重训。
核心 idea: MLLM Agent + 异构检测工具 + 能力感知动态编排 + GRPO 训练（仅二值标签）。

方法详解¶

整体框架¶

工具封装: 将 SOTA 检测器（MLLM 和非 MLLM）封装为可调用工具，每个工具有能力档案
能力感知选择: 给输入图像打标签（主题/质量/风格），匹配最合适的工具集
动态编排: 多轮循环——调用工具 → 分析结果 → 决定继续调用或给出结论
GRPO 训练: 仅用二值标签（真/假）训练 Agent 的调度和推理能力

关键设计¶

工具能力档案 (Tool Profile):
- 做什么：描述每个检测器的能力特征——擅长什么、不擅长什么、冲突时参考什么
- 四个维度：总览 (overall)、优势 (strengths)、弱点 (weaknesses)、冲突提示 (conflict hints)
- 用三个标签维度区分图像类型：主题 (Subject)、质量 (Quality)、风格 (Style)
- 设计动机：让 Agent 做有信息的选择而非盲目调用所有工具。档案用模糊语言描述（"擅长高质量人脸"而非定量数值），保留 Agent 的推理灵活度
动态编排机制:
- 做什么：多轮调用+反思决策
- 流程：Round 1 调用初始工具集 → 分析结果 → 如果工具意见冲突或置信度低 → 继续调用更多工具 → 直到 Agent 判断证据充分 → 给出最终结论
- 设计动机：单轮调用可能遭遇工具冲突（一个说真一个说假），需要 Agent 能"反思"并主动寻求更多证据——这正是 Agent 范式优于静态集成的地方
GRPO Agentic RL 训练:
- 做什么：仅用二值标签训练 Agent 的调度和推理能力
- 奖励函数：准确性奖励（判对 +1，判错 -1）+ 格式奖励 + 反思质量奖励
- 设计动机：传统 MLLM 检测器需要细粒度标注（"图片中手指有6根，物理不合理"），获取成本高。GRPO + 二值标签大幅降低数据需求
即插即用扩展:
- 做什么：零重训练地添加新检测器
- 流程：为新工具写能力档案 → 加入工具集 → Agent 自动在后续推理中考虑该工具
- 设计动机：生成模型迭代快，检测系统必须能快速适配新威胁

实验关键数据¶

检测精度¶

EvoGuard 在多个 AIGI 检测基准上达到 SOTA 准确率
关键优势：在正负样本之间实现更均衡的性能——不像某些方法严重偏向某一类
超越各个单体工具的最优表现——"整体大于部分之和"

即插即用扩展验证¶

工具数量	性能变化
基础工具集	baseline
+1 新工具	性能提升（无需重训）
+2 新工具	进一步提升

添加新检测器 → 零重训练 → 性能自动提升。

消融实验¶

配置	效果
无能力档案（随机选工具）	显著下降
单轮调用（无动态编排）	下降
无 GRPO（纯 SFT）	下降
无反思机制	下降

亮点与洞察¶

范式转换：从"造更强检测器"到"协调现有检测器"——这是应对快速进化威胁的更可持续策略。类似于人类专家团队协作优于单个超级专家。
能力档案的模糊设计：用语言而非数值描述工具能力，保留 Agent 推理灵活度——因为训练集分布与实际部署不同，精确数值反而有害。
二值标签足够：不需要"这张图是AI生成的因为手指有6根"这样的细粒度标注——只需要"真/假"，GRPO 就能涌现出有效的工具调度策略。
实用性极强：新生成模型出现 → 社区开发新检测器 → 写个档案加到工具集 → 无需重训练 → 检测系统自动进化。

局限性 / 可改进方向¶

多轮调用增加延迟：动态编排需要多次工具调用+Agent 推理，部署延迟可能不适合实时场景
工具档案需要人工编写：虽然有 LLM 辅助，但仍需人工验证和修改
Agent 推理质量依赖基座模型：如果 MLLM 本身推理能力弱，动态编排的决策质量会下降
假设工具输出互补：如果所有工具在同类图像上都失败，Agent 也无法挽救

评分¶

新颖性: ⭐⭐⭐⭐⭐ Agent 范式用于 AIGI 检测是全新视角，即插即用扩展性是杀手级特性
实验充分度: ⭐⭐⭐⭐ 多基准 + 即插即用验证 + 消融
写作质量: ⭐⭐⭐⭐ 动机清晰，与现有方法的对比表格直观
价值: ⭐⭐⭐⭐⭐ 提供了应对 AIGI 威胁的长期可持续方案