ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding¶

会议: CVPR 2025
arXiv: 2412.12718
代码: https://github.com/CriliasMiller/ASAP
领域: 多模态篡改检测 / 语义对齐 / 视觉-语言理解
关键词: Multi-Modal Manipulation Detection, Semantic Alignment, Cross Attention, DGM4, Hard Negative Mining
作者: Zhenxing Zhang, Yaxiong Wang 等 (合肥工业大学)

一句话总结¶

提出ASAP框架，通过大模型辅助对齐(LMA)、篡改引导交叉注意力(MGCA)和补丁篡改建模(PMM)三个核心模块，系统性地推进图文语义对齐以提升多模态篡改检测与定位性能——在DGM4基准上AUC达94.38%，文本定位F1达76.52%，显著超越现有方法。

背景与动机¶

随着AIGC技术（如扩散模型、LLM）的快速发展，高质量的图文篡改内容越来越容易生成，对社交媒体信息可信度构成严重威胁。多模态篡改检测任务要求同时检测图像和文本中的篡改区域，不仅需要判断整体是否被篡改（分类），还需精确定位篡改的图像区域和文本片段（定位）。

现有方法（如HAMMER等）虽然取得了一定进展，但仍存在两个核心瓶颈： 1. 图文语义对齐不足：篡改检测的关键在于发现图文之间的语义不一致，但现有方法的对齐学习不够充分，难以捕捉细粒度的语义差异 2. 区域级定位精度有限：图像篡改定位通常需要patch级别的精确判断，现有方法缺乏有效的区域级监督和难负例挖掘机制

核心问题¶

如何系统性地增强图文语义对齐，使模型能更准确地检测和定位多模态内容中的篡改区域？

方法详解¶

整体框架¶

ASAP构建在CLIP双编码器架构之上，包含三个核心模块，总损失函数为：

35714L = L_{DGM} + L_{LMA} + lpha \cdot L_{MGCA} + \lambda \cdot L_{PMM}35714

其中 $lpha=0.1$，$\lambda=0.01$。{DGM}$ 是基础的DGM4多任务损失。

模块一：大模型辅助对齐 (LMA)¶

LMA模块利用预训练大模型生成丰富的文本描述，增强视觉-语言对齐学习：

图像描述生成：使用多模态大语言模型（MLLM，如InstructBLIP）为每张图像生成详细的视觉描述（caption）
篡改解释生成：使用大语言模型（LLM，如ChatGLM）基于原始文本和篡改文本对生成篡改解释（explanation），描述文本在何处发生了何种篡改
对比学习对齐：构建视觉-描述对和文本-解释对进行对比学习，拉近匹配对、推远不匹配对，损失为：

35714L_{LMA} = L_{cap} + L_{exp}35714

文本类型	生成模型	用途	示例
Caption（图像描述）	InstructBLIP (MLLM)	图像到文本的语义桥接	一位男子站在红色汽车旁
Explanation（篡改解释）	ChatGLM (LLM)	描述篡改具体变化	将红色汽车替换为蓝色卡车
原始文本	数据集提供	基准文本	一位男子站在红色汽车旁
篡改文本	数据集提供	检测目标	一位男子站在蓝色卡车旁

模块二：篡改引导交叉注意力 (MGCA)¶

MGCA模块通过显式的篡改区域引导，增强跨模态注意力对篡改区域的关注：

引导掩码生成：根据图像篡改标注生成二值引导掩码 $，标记哪些patch被篡改
掩码增强注意力：在标准交叉注意力基础上，通过引导掩码调制注意力权重，使模型更多关注篡改相关的区域：

35714Attn_{MGCA} = ext{softmax}(rac{QK^T}{\sqrt{d}} + eta \cdot M_g)35714

辅助损失：额外的交叉注意力对齐损失 {MGCA}$ 鼓励注意力权重集中在实际篡改区域

模块三：补丁篡改建模 (PMM)¶

PMM模块通过难负例补丁选择策略提升区域级篡改定位精度：

Hard Negative Patch Selection (HNP)：在每个batch中，选择与篡改patch视觉特征最相似但未被篡改的patch作为难负样例
对比学习：在patch级别构建对比学习目标，拉近同一篡改区域的patch表示、推远与难负例的表示
区域定位增强：通过HNP策略，模型学习区分视觉相似但语义不同的patch，从而提升定位精度

35714L_{PMM} = -\log rac{\exp(sim(z_i^+, z_i) / au)}{\exp(sim(z_i^+, z_i) / au) + \sum_j \exp(sim(z_j^-, z_i) / au)}35714

实验结果¶

主实验¶

在DGM4基准数据集上与主要方法的全面对比：

方法	AUC (%)	ACC (%)	mAP (%)	文本F1 (%)	图像IoU (%)
HAMMER	93.09	86.42	87.20	72.22	76.10
DGM4-baseline	91.56	84.90	85.03	70.15	74.82
MFCLIP	92.47	85.88	86.51	71.68	75.63
ASAP (本文)	94.38	87.71	88.53	76.52	77.35
ASAP vs HAMMER	+1.29	+1.29	+1.33	+4.30	+1.25

核心发现： - 在所有五个指标上统一超越现有最优方法 - 文本定位F1提升最显著(+4.30%)，说明语义对齐对文本篡改定位尤为关键 - AUC和ACC的同步提升证明整体检测能力的增强

不同篡改类型的性能¶

篡改类型	AUC (%)	文本F1 (%)	图像IoU (%)
仅文本篡改	95.12	79.83	-
仅图像篡改	93.67	-	78.91
图文联合篡改	94.45	73.72	75.23

图文联合篡改最具挑战性，但ASAP仍保持较高性能。

消融实验¶

各模块贡献¶

逐步添加各模块的性能变化：

设置	AUC (%)	ACC (%)	文本F1 (%)	图像IoU (%)
Baseline (DGM4)	93.16	86.01	72.05	75.88
+ LMA	94.28	87.30	75.41	76.72
+ LMA + MGCA	94.40	87.55	76.18	77.10
+ LMA + MGCA + PMM (完整ASAP)	94.38	87.71	76.52	77.35

关键观察： - LMA贡献最大（AUC +1.12%），证明大模型辅助的语义对齐学习是核心 - MGCA进一步提升定位精度（文本F1 +0.77%） - PMM主要提升图像定位（IoU +0.25%）和文本定位（F1 +0.34%），AUC略有波动（-0.02%）表明PMM更侧重定位而非分类

LMA中不同文本类型的影响¶

设置	AUC (%)	文本F1 (%)	图像IoU (%)
无LMA	93.16	72.05	75.88
仅Caption	93.85	74.12	76.30
仅Explanation	93.72	73.88	76.15
Caption + Explanation	94.28	75.41	76.72

Caption和Explanation各自贡献互补信息，联合使用效果最佳。Caption提供视觉语义描述，Explanation提供篡改操作的显式描述。

HNP策略的影响¶

有HNP：图像IoU 77.35%
无HNP：图像IoU 76.92%（-0.43%）
HNP通过挖掘视觉相似但语义不同的难负例，有效提升了边界区域的定位精度

总结与评价¶

优点¶

系统性设计：三个模块从不同角度增强语义对齐，互为补充
大模型赋能：巧妙利用MLLM和LLM生成辅助文本，无需额外人工标注
全面领先：在检测和定位两个层面的所有指标上均取得最优

局限性¶

推理效率：LMA模块的大模型生成在训练阶段可离线完成，但增加了数据预处理成本
引导掩码依赖：MGCA需要训练时的篡改区域标注，限制了对无标注场景的适用性
数据集单一：实验仅在DGM4基准上验证，对其他多模态篡改检测数据集的泛化性有待验证

启发¶

利用大模型生成辅助信号进行对齐学习，是一种低成本但高效的增强策略
难负例挖掘在区域级任务中的重要性被再次验证