LEGION: Learning to Ground and Explain for Synthetic Image Detection¶

会议: ICCV 2025
arXiv: 2503.15264
代码: opendatalab.github.io/LEGION
领域: 图像分割
关键词: 合成图像检测, 伪影定位, MLLM, 可解释性, 图像修复

一句话总结¶

提出 LEGION 框架和 SynthScars 数据集，利用多模态大语言模型（MLLM）实现合成图像的伪影检测、像素级分割和文本解释三位一体，并创新性地将检测器从"防御者"扩展为"控制者"，引导生成模型产出更高质量的图像。

研究背景与动机¶

生成技术（GAN → Diffusion → 自回归模型）快速发展，合成图像日益逼真，带来隐私侵犯、版权争议和虚假信息传播等风险。现有合成图像检测方法存在三方面不足：

数据集过时：OpenForensics 等数据集主要包含早期 GAN 生成的低质量/动漫风格图像，模型难以泛化到 Stable Diffusion 3.5、FLUX 等现代生成器；RichHF-18K 仅用点标注，空间精度低；SID-Set 仅适用于篡改图像

方法局限：传统方法（PAL4VST）依赖底层结构线索，难以处理需要全局推理的伪影（如违反物理光影规律）；现有 MLLM 方法主要关注篡改图像，对完全合成图像的研究不足

检测与生成脱节：现有检测方法仅作为"防御者"，未探索利用检测反馈来提升生成质量的可能性

本文的核心动机是将检测范式从 Defender（防御者） 升级为 Controller（控制者），不仅检测伪影，还引导生成模型消除伪影。

方法详解¶

整体框架¶

LEGION 包含四个核心组件：(i) 全局图像编码器（ViT-H/14 CLIP）, (ii) LLM（Vicuna-based）, (iii) Grounding 图像编码器（SAM encoder）, (iv) 像素解码器（SAM decoder 变体），支持三个任务：伪影检测（二分类）、伪影定位（像素级分割）、解释生成（自然语言）。

关键设计¶

伪造检测（Deepfake Detection）: 提取 CLIP 全局编码器的 CLS token，通过两层 MLP 进行真/假二分类： $$y_d = \text{MLP}(\text{CLS}(I_x))$$ 简洁有效，利用预训练 CLIP 的强大特征表达能力。
解释生成（Explanation Generation）: 将 CLIP 全局编码器的 256 个图像 token（不含 CLS）通过 V-L 投影层映射到 LLM 的输入空间，结合伪造分析 prompt 生成文本解释： $$y_e = \mathcal{L}(x_p, \mathcal{P}_{vl}(I'_x))$$ 采用 prompt 模板："The \<image> provides an overview of the image." + 伪造分析专用 prompt。
伪影定位（Artifact Localization）: LLM 输出在每个伪影位置描述后附加 <SEG> token，通过 L-P 投影层将其嵌入转换到解码器特征空间，SAM 解码器生成二值掩码： $$M = \mathcal{D}(\mathcal{E}_l(x_i), \mathcal{P}_{lp}(v_{seg}))$$ 实现了语言引导的像素级伪影分割。
图像修复管线（Image Refinement Pipeline）:
- 重生成（Regeneration）：LEGION 检测伪影 → 解释记入 memory bank → 文本修改器修订 prompt → T2I 模型重新生成
- 修复（Inpainting）：LEGION 输出区域级三元组 $(L_i, M_i, E_i)$（位置、掩码、解释）→ 逐区域修复，保留非伪影区域

损失函数 / 训练策略¶

采用两阶段独立训练：

Stage 1（定位 + 解释）: $$\mathcal{L}_{s1} = \lambda_{bce}\mathcal{L}_{BCE}(M, \hat{M}) + \lambda_{dice}\mathcal{L}_{Dice}(M, \hat{M}) + \lambda_{ce}\mathcal{L}_{CE}(y_e, \hat{y}_e)$$ 其中 $\lambda_{ce}=1.0, \lambda_{dice}=0.2, \lambda_{bce}=0.4$。

Stage 2（检测）: 典型交叉熵损失用于分类： $$\mathcal{L}_{s2} = \mathcal{L}_{CE}(y_d, \hat{y}_d)$$

基于 GLaMM 预训练权重，使用 LoRA（$\alpha=8$）在 8×A100 GPU 上微调。

实验关键数据¶

主实验（伪影定位）¶

方法	类型	SynthScars F1	SynthScars mIoU	LOKI F1	RichHF-18K F1
PAL4VST	传统专家	50.46~52.55	11.58~21.61	49.88	14.78
LISA-v1-7B*	MLLM	31.10~37.56	9.29~23.70	35.90	21.94
InternVL2-8B	MLLM	41.08~42.03	3.91~13.36	39.90	9.58
LEGION	本文	48.66~60.82	16.71~39.44	50.07	17.41

提升幅度：在 SynthScars 上比最强传统专家 PAL4VST 的 mIoU 高 +3.31%，F1 高 +7.75%。

解释质量¶

方法	参数量	SynthScars ROUGE-L	SynthScars CSS	LOKI ROUGE-L
Qwen2-VL	72B	25.84	58.15	11.80
LLaVA-v1.6	7B	29.61	61.75	16.07
LEGION	-	最优	最优	最优

消融实验¶

SynthScars 数据集统计	数值
全合成图像数	12,236
图像内容类型	4种（Object/Animal/Human/Scene）
伪影类别	3种（physics/distortion/structure）
标注完整性	100%（像素级掩码 + 文本解释 + 伪影类型）

关键发现¶

LEGION 在三个评测集上的大多数指标 SOTA，尤其在对象类别上比 PAL4VST 的 F1 高出 10.65 分
通用 MLLM（Ferret, Griffon, Qwen2-VL）在伪影定位上存在两种极端：要么完全失败，要么将大部分图像标为伪影
作为 Controller 的图像修复管线在 HPS（人类偏好分数）上显著优于基线
LEGION 在各种扰动（压缩、噪声、模糊）下展现强鲁棒性

亮点与洞察¶

Defender → Controller 的范式转换：首次系统性地将伪影检测反馈用于引导更高质量的图像生成，开辟新研究方向
SynthScars 数据集填补空白：首个同时提供像素级掩码、文本解释和伪影类型标签的全合成图像基准
多任务统一框架：检测、定位、解释在一个 MLLM 中统一，比分离式方案更高效
<SEG> token 的语言引导分割：LLM 自然语言描述与像素级分割无缝衔接

局限与展望¶

依赖预训练的 SAM 和 CLIP，对于极新生成器的图像可能需要更新基础模型
两阶段训练增加复杂度，可探索端到端联合训练
图像修复管线需要多轮迭代，效率待提升
RichHF-18K 上的 F1 低于 LISA-v1-7B，跨域泛化仍有提升空间

评分¶

新颖性：⭐⭐⭐⭐⭐ — Defender→Controller 范式 + 高质量数据集
实验充分度：⭐⭐⭐⭐ — 4个基准 + 19个方法对比 + 鲁棒性分析
实用性：⭐⭐⭐⭐ — 可直接用于内容审核和生成质量提升
总体：⭐⭐⭐⭐⭐