The Coherence Trap: MLLM-Crafted Narratives Exploit Manipulated Visual Contexts¶
会议: CVPR 2026
arXiv: 2505.17476
代码: https://github.com/YcZhangSing/AMD
领域: AI安全 / 深度伪造检测
关键词: multimodal manipulation detection, MLLM-driven disinformation, semantic alignment, deepfake grounding, dataset
一句话总结¶
揭示现有多模态虚假信息检测的两个根本缺陷(低估MLLM生成的语义一致虚假叙事+依赖简单不对齐的伪影),构建441k样本的MDSM数据集(图像篡改+MLLM生成语义对齐文本),并提出AMD框架(Artifact Pre-perception + Manipulation-Oriented Reasoning),在跨域检测中达88.18 ACC / 60.25 mAP / 61.02 mIoU。
背景与动机¶
多模态假新闻检测面临新挑战:(1) 现有方法(DGM4/HAMMER)主要应对规则化文本篡改(如简单替换人名),忽视了MLLM能根据篡改图像动态生成流畅、上下文合理但误导性的叙事——这种"语义一致性陷阱"使传统对比学习失效;(2) 现有数据集中图-文篡改独立进行,产生的语义不一致很容易被公众识别。真实场景中的攻击者会刻意维护视觉-文本一致性以最大化误导效果。
核心问题¶
如何检测和定位语义一致的MLLM驱动多模态篡改——即图像被编辑后文本由MLLM重新生成以保持视觉-文本匹配?
方法详解¶
MDSM数据集构建¶
- 数据源:GoodNews/VisualNews/N24News,210万+图文对,过滤出含人脸+人名的数据
- 图像篡改:Face Swap(SimSwap/e4s)和Face Attribute(StyleCLIP/HFGI,反转情绪)
- 文本篡改:用Qwen2-VL生成语义对齐的虚假叙事——输入篡改后图像+人名列表(元信息),MLLM生成与视觉一致但虚假的文本
- 5种篡改组合:FS / FS&TF / FA / FA&TF / TF
- 规模:441k样本,来自Guardian/NYT/USA Today/Washington Post/BBC,支持跨域评估
AMD框架¶
基于Florence-2,三阶段pipeline:
-
Multi-modal Input Embedding:可学习Artifact Token \(E_a \in \mathbb{R}^{n_a \times d}\) 拼接到图像和文本嵌入之间 \(S_{inp} = [E_v; E_a; E_t]\)
-
Artifact Pre-perception Encoding (APE):通过冻结的预感知编码器 \(\mathcal{E}_{mp}\) 处理输入序列,提取artifact token \(\hat{E}_a\),用二分类头(加权池化+分类器)做篡改检测监督 \(\mathcal{L}_{APE}\),将伪影线索注入artifact token。关键:冻结编码器参数以保存MLLM原始知识,替换回原始图-文嵌入以保持推理能力。
-
Manipulation-Oriented Reasoning (MOR):
- Visual Artifact Aggregation (VAA):artifact token作query通过交叉注意力从视觉特征中聚合篡改空间信息,用于bbox定位(\(\mathcal{L}_{IMG}\))
- Dual-Branch Manipulation (DBM):视觉+artifact和文本分别作query做跨模态交叉注意力,双分支二分类判别(\(\mathcal{L}_{DBM}\))——mAP从47.18提升到66.47
-
Language Modeling:自回归生成文本答案(选项+坐标)
-
Token Redundancy Penalty (TRP):正交约束 \(\mathcal{L}_{orth}\) + KL散度均匀约束 \(\mathcal{L}_{mod}\),防止artifact token冗余坍缩
总损失¶
\(\mathcal{L} = \mathcal{L}_{APE} + \mathcal{L}_{DBM} + \mathcal{L}_{IMG} + \mathcal{L}_{TRP} + \mathcal{L}_{LM}\)
推理时所有辅助头丢弃,仅保留文本生成。
实验关键数据¶
| MDSM (Guardian训练) | 方法 | AVG ACC↑ | AVG mAP↑ | AVG mIoU↑ |
|---|---|---|---|---|
| ViLT | 76.61 | 49.90 | 35.67 | |
| HAMMER++ | 75.10 | 49.01 | 48.49 | |
| FKA-Owl (7B) | 84.12 | 58.13 | 52.20 | |
| AMD (0.27B) | 88.18 | 60.25 | 61.02 |
| DGM4 (Guardian训练) | AVG ACC↑ | AVG mAP↑ | AVG mIoU↑ |
|---|---|---|---|
| HAMMER++ | 65.61 | 47.36 | 46.19 |
| FKA-Owl | 71.96 | 42.68 | 44.15 |
| AMD | 74.47 | 52.91 | 51.87 |
- Zero-shot通用模型(GPT-4o/Gemini-2.0/Qwen3-VL-235B)在MDSM上仅~33% ACC——语义一致篡改对当前MLLM极具挑战
- 跨MLLM泛化:用Qwen-VL/LLaVA/mPLUG-Owl/X-InstructBLIP生成文本测试,AMD保持53+ AP
- 效率:276M参数 vs FKA-Owl 6771M,推理13.38 p/s vs FKA-Owl 1.33 p/s
消融实验要点¶
- APE: ACC 76.92→82.93(+6)——预感知伪影线索是关键
- DBM: mAP 47.18→66.47(+19)——双分支跨模态判别大幅提升分类
- IMG: mIoU 60.13→61.78——grounding辅助任务有帮助
- TRP: ACC和mIoU全面小幅提升——减少token冗余
- t-SNE可视化:Artifact token经三阶段处理后类别聚类逐渐清晰
亮点¶
- 定义了极具现实意义的新问题:MLLM驱动的语义一致多模态篡改——比规则化文本替换更难检测
- MDSM数据集填补关键空白:441k规模、5个媒体域、语义对齐、支持跨域评估
- AMD仅276M参数却超越7B级FKA-Owl——统一的seq2seq框架比多头架构更高效
- APE的"冻结编码器+仅训练artifact token"策略巧妙保留MLLM知识
- 伦理考虑周全:不发布生成pipeline/prompt,仅限研究访问,图像加水印
局限性 / 可改进方向¶
- 仅考虑人脸相关篡改(换脸/属性编辑),其他物体或场景级篡改未覆盖
- 文本篡改仅用Qwen2-VL生成——虽然验证了跨MLLM泛化,但未覆盖最新的推理型模型
- Florence-2作为backbone规模较小,更大backbone可能进一步提升
- 跨域泛化在部分域上仍有明显gap(如NYT训练→USA测试时性能下降)
与相关工作的对比¶
- vs DGM4/HAMMER:DGM4独立篡改图文导致语义不一致容易检测;MDSM对齐篡改更难,HAMMER在MDSM上mAP仅44
- vs MMFakeBench:仅30%语义对齐样本且11k规模不足训练;MDSM 100%对齐、441k规模
- vs FKA-Owl:7B模型、仅做二分类无细粒度分类/定位;AMD 0.27B、统一检测+分类+定位
- vs 通用MLLM(GPT-4o等):零样本~33% ACC——说明需要专门训练检测语义一致篡改
启发与关联¶
- MLLM生成的虚假信息是真实存在的社会安全威胁——该工作为防御此类攻击提供了基础设施
- Artifact token的pre-perception设计可推广到其他需要检测特定信号的MLLM应用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统性定义和应对MLLM驱动的语义一致多模态篡改问题
- 实验充分度: ⭐⭐⭐⭐⭐ 441k数据集、5域跨域、4种MLLM泛化、零样本通用模型对比、完整消融
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰、数据集构建详尽、伦理考虑完善
- 价值: ⭐⭐⭐⭐⭐ 数据集+方法共同定义了MLLM时代虚假信息检测的新范式