ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding¶
会议: CVPR 2025
arXiv: 2412.12718
代码: https://github.com/CriliasMiller/ASAP
领域: 多模态篡改检测 / 语义对齐 / 视觉-语言理解
关键词: Multi-Modal Manipulation Detection, Semantic Alignment, Cross Attention, DGM4, Hard Negative Mining
作者: Zhenxing Zhang, Yaxiong Wang 等 (合肥工业大学)
一句话总结¶
提出ASAP框架,通过大模型辅助对齐(LMA)、篡改引导交叉注意力(MGCA)和补丁篡改建模(PMM)三个核心模块,系统性地推进图文语义对齐以提升多模态篡改检测与定位性能——在DGM4基准上AUC达94.38%,文本定位F1达76.52%,显著超越现有方法。
背景与动机¶
随着AIGC技术(如扩散模型、LLM)的快速发展,高质量的图文篡改内容越来越容易生成,对社交媒体信息可信度构成严重威胁。多模态篡改检测任务要求同时检测图像和文本中的篡改区域,不仅需要判断整体是否被篡改(分类),还需精确定位篡改的图像区域和文本片段(定位)。
现有方法(如HAMMER等)虽然取得了一定进展,但仍存在两个核心瓶颈: 1. 图文语义对齐不足:篡改检测的关键在于发现图文之间的语义不一致,但现有方法的对齐学习不够充分,难以捕捉细粒度的语义差异 2. 区域级定位精度有限:图像篡改定位通常需要patch级别的精确判断,现有方法缺乏有效的区域级监督和难负例挖掘机制
核心问题¶
如何系统性地增强图文语义对齐,使模型能更准确地检测和定位多模态内容中的篡改区域?
方法详解¶
整体框架¶
ASAP构建在CLIP双编码器架构之上,包含三个核心模块,总损失函数为:
35714L = L_{DGM} + L_{LMA} + lpha \cdot L_{MGCA} + \lambda \cdot L_{PMM}35714
其中 \(lpha=0.1\),\(\lambda=0.01\)。{DGM}$ 是基础的DGM4多任务损失。
模块一:大模型辅助对齐 (LMA)¶
LMA模块利用预训练大模型生成丰富的文本描述,增强视觉-语言对齐学习:
- 图像描述生成:使用多模态大语言模型(MLLM,如InstructBLIP)为每张图像生成详细的视觉描述(caption)
- 篡改解释生成:使用大语言模型(LLM,如ChatGLM)基于原始文本和篡改文本对生成篡改解释(explanation),描述文本在何处发生了何种篡改
- 对比学习对齐:构建视觉-描述对和文本-解释对进行对比学习,拉近匹配对、推远不匹配对,损失为:
35714L_{LMA} = L_{cap} + L_{exp}35714
| 文本类型 | 生成模型 | 用途 | 示例 |
|---|---|---|---|
| Caption(图像描述) | InstructBLIP (MLLM) | 图像到文本的语义桥接 | 一位男子站在红色汽车旁 |
| Explanation(篡改解释) | ChatGLM (LLM) | 描述篡改具体变化 | 将红色汽车替换为蓝色卡车 |
| 原始文本 | 数据集提供 | 基准文本 | 一位男子站在红色汽车旁 |
| 篡改文本 | 数据集提供 | 检测目标 | 一位男子站在蓝色卡车旁 |
模块二:篡改引导交叉注意力 (MGCA)¶
MGCA模块通过显式的篡改区域引导,增强跨模态注意力对篡改区域的关注:
- 引导掩码生成:根据图像篡改标注生成二值引导掩码 $,标记哪些patch被篡改
- 掩码增强注意力:在标准交叉注意力基础上,通过引导掩码调制注意力权重,使模型更多关注篡改相关的区域:
35714Attn_{MGCA} = ext{softmax}(rac{QK^T}{\sqrt{d}} + eta \cdot M_g)35714
- 辅助损失:额外的交叉注意力对齐损失 {MGCA}$ 鼓励注意力权重集中在实际篡改区域
模块三:补丁篡改建模 (PMM)¶
PMM模块通过难负例补丁选择策略提升区域级篡改定位精度:
- Hard Negative Patch Selection (HNP):在每个batch中,选择与篡改patch视觉特征最相似但未被篡改的patch作为难负样例
- 对比学习:在patch级别构建对比学习目标,拉近同一篡改区域的patch表示、推远与难负例的表示
- 区域定位增强:通过HNP策略,模型学习区分视觉相似但语义不同的patch,从而提升定位精度
35714L_{PMM} = -\log rac{\exp(sim(z_i^+, z_i) / au)}{\exp(sim(z_i^+, z_i) / au) + \sum_j \exp(sim(z_j^-, z_i) / au)}35714
实验结果¶
主实验¶
在DGM4基准数据集上与主要方法的全面对比:
| 方法 | AUC (%) | ACC (%) | mAP (%) | 文本F1 (%) | 图像IoU (%) |
|---|---|---|---|---|---|
| HAMMER | 93.09 | 86.42 | 87.20 | 72.22 | 76.10 |
| DGM4-baseline | 91.56 | 84.90 | 85.03 | 70.15 | 74.82 |
| MFCLIP | 92.47 | 85.88 | 86.51 | 71.68 | 75.63 |
| ASAP (本文) | 94.38 | 87.71 | 88.53 | 76.52 | 77.35 |
| ASAP vs HAMMER | +1.29 | +1.29 | +1.33 | +4.30 | +1.25 |
核心发现: - 在所有五个指标上统一超越现有最优方法 - 文本定位F1提升最显著(+4.30%),说明语义对齐对文本篡改定位尤为关键 - AUC和ACC的同步提升证明整体检测能力的增强
不同篡改类型的性能¶
| 篡改类型 | AUC (%) | 文本F1 (%) | 图像IoU (%) |
|---|---|---|---|
| 仅文本篡改 | 95.12 | 79.83 | - |
| 仅图像篡改 | 93.67 | - | 78.91 |
| 图文联合篡改 | 94.45 | 73.72 | 75.23 |
图文联合篡改最具挑战性,但ASAP仍保持较高性能。
消融实验¶
各模块贡献¶
逐步添加各模块的性能变化:
| 设置 | AUC (%) | ACC (%) | 文本F1 (%) | 图像IoU (%) |
|---|---|---|---|---|
| Baseline (DGM4) | 93.16 | 86.01 | 72.05 | 75.88 |
| + LMA | 94.28 | 87.30 | 75.41 | 76.72 |
| + LMA + MGCA | 94.40 | 87.55 | 76.18 | 77.10 |
| + LMA + MGCA + PMM (完整ASAP) | 94.38 | 87.71 | 76.52 | 77.35 |
关键观察: - LMA贡献最大(AUC +1.12%),证明大模型辅助的语义对齐学习是核心 - MGCA进一步提升定位精度(文本F1 +0.77%) - PMM主要提升图像定位(IoU +0.25%)和文本定位(F1 +0.34%),AUC略有波动(-0.02%)表明PMM更侧重定位而非分类
LMA中不同文本类型的影响¶
| 设置 | AUC (%) | 文本F1 (%) | 图像IoU (%) |
|---|---|---|---|
| 无LMA | 93.16 | 72.05 | 75.88 |
| 仅Caption | 93.85 | 74.12 | 76.30 |
| 仅Explanation | 93.72 | 73.88 | 76.15 |
| Caption + Explanation | 94.28 | 75.41 | 76.72 |
Caption和Explanation各自贡献互补信息,联合使用效果最佳。Caption提供视觉语义描述,Explanation提供篡改操作的显式描述。
HNP策略的影响¶
- 有HNP:图像IoU 77.35%
- 无HNP:图像IoU 76.92%(-0.43%)
- HNP通过挖掘视觉相似但语义不同的难负例,有效提升了边界区域的定位精度
总结与评价¶
优点¶
- 系统性设计:三个模块从不同角度增强语义对齐,互为补充
- 大模型赋能:巧妙利用MLLM和LLM生成辅助文本,无需额外人工标注
- 全面领先:在检测和定位两个层面的所有指标上均取得最优
局限性¶
- 推理效率:LMA模块的大模型生成在训练阶段可离线完成,但增加了数据预处理成本
- 引导掩码依赖:MGCA需要训练时的篡改区域标注,限制了对无标注场景的适用性
- 数据集单一:实验仅在DGM4基准上验证,对其他多模态篡改检测数据集的泛化性有待验证
启发¶
- 利用大模型生成辅助信号进行对齐学习,是一种低成本但高效的增强策略
- 难负例挖掘在区域级任务中的重要性被再次验证
相关论文¶
- [CVPR 2025] ASAP: Advancing Semantic Alignment for Multi-Modal Manipulation Detection
- [NeurIPS 2025] mmWalk: Towards Multi-modal Multi-view Walking Assistance
- [CVPR 2025] PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments
- [CVPR 2025] Instruction-based Image Manipulation by Watching How Things Move
- [CVPR 2025] 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation