The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts¶

会议: CVPR 2026
arXiv: 2505.17476
代码: https://github.com/YcZhangSing/AMD
领域: AI安全 / 多模态虚假信息检测
关键词: multimodal manipulation detection, MLLM-driven disinformation, semantic-aligned forgery, deepfake grounding, artifact token

一句话总结¶

揭示现有多模态篡改检测忽视了MLLM能生成语义一致的欺骗性叙事这一核心威胁，构建441k样本的MDSM语义对齐篡改数据集，并提出基于Artifact Token和操纵导向推理的AMD框架，在跨域检测中以仅0.27B参数达到88.18 ACC / 60.25 mAP / 61.02 mIoU的最优泛化性能。

研究背景与动机¶

现实威胁¶

生成式AI的发展使得图像篡改（换脸、属性编辑）愈发逼真，但更大的风险在于：攻击者不再仅仅修改图像，而是利用MLLM（如Qwen2-VL）根据篡改后的图像动态生成语义一致、上下文合理但内容虚假的文字叙事。这种"语义一致性陷阱"（Coherence Trap）使得传统依赖图文不一致性来检测篡改的方法完全失效。

现有方法的两个根本缺陷¶

低估MLLM驱动的欺骗风险：DGM⁴、HAMMER等主流方法针对的是规则化文本篡改（如简单替换人名/实体），面对MLLM生成的流畅、上下文适配的虚假叙事毫无抵抗力。这些方法的核心假设——图文之间存在可检测的语义不一致——在语义对齐篡改场景下不再成立。

不切实际的不对齐伪影：现有数据集（如DGM⁴）中图像篡改和文本篡改是独立进行的，生成的样本语义不连贯，容易被公众直接识别——根本不需要检测模型。真实世界的攻击者会精心维护视觉-文本一致性以最大化误导效果。

对比学习失效的核心原因¶

在MDSM场景中，由于篡改后的图像和MLLM生成的文本本身就是完全匹配的，基于对比学习（contrastive learning）的检测范式——如ASAP、HAMMER所采用的——无法从图文对齐度中提取有效线索。模型必须依赖外部知识和伪影痕迹（如换脸后的纹理不自然、MLLM生成文本的统计模式）来进行判断。

方法详解¶

整体框架：AMD (Artifact-aware Manipulation Diagnosis)¶

AMD建立在Florence-2之上，采用sequence-to-sequence架构，将检测和定位任务统一为文本生成问题。框架分三个阶段：

Multi-modal Input Embedding：将图像、文本和可学习Artifact Token拼接为统一输入序列
Artifact Pre-perception Encoding (APE)：通过浅层编码器提取篡改伪影线索并注入Artifact Token
Manipulation-Oriented Reasoning (MOR)：通过深层编码器-解码器进行检测推理，生成包含判定结果和坐标的文本输出

关键设计一：Artifact Token 嵌入¶

引入可学习的Artifact Token \(E_a \in \mathbb{R}^{n_a \times d}\)，与图像嵌入 \(E_v\) 和文本嵌入 \(E_t\) 拼接形成输入序列 \(S_{inp} = [E_v; E_a; E_t]\)。Artifact Token的作用是作为"伪影容器"，在训练过程中逐步积累篡改相关的模式信息，弥补图文对齐场景中缺失的不一致信号。

关键设计二：Artifact Pre-perception Encoding (APE)¶

输入序列经过预感知编码器 \(\mathcal{E}_m^p\) 后，提取 \(\hat{E}_a\) 并通过加权池化得到全局伪影表示 \(\bar{E}_a\)：

\[\mathcal{W} = m^\top \text{ReLU}(\mathcal{M}\hat{E}_a^\top + b)\]

然后用二分类器判断是否存在篡改痕迹。关键策略：

冻结编码器参数：优化分类损失 \(\mathcal{L}_{APE}\) 时冻结 \(\mathcal{E}_m^p\)，让更多伪影线索积累到Artifact Token中，同时保留MLLM的原始世界知识
替换输入嵌入：将 \(\hat{S}\) 中的图像和文本嵌入替换回原始 \(E_v, E_t\)，仅保留增强后的 \(\hat{E}_a\)，形成 \(S_a = [E_v; \hat{E}_a; E_t]\)

关键设计三：Manipulation-Oriented Reasoning (MOR)¶

MOR包含两个辅助任务引导推理：

Visual Artifact Capture via Grounding (VAA)：将Artifact Token \(\hat{E}_a^m\) 通过注意力池化得到查询向量 \(q_a\)，再通过交叉注意力从图像特征 \(\hat{E}_v^m\) 中聚合空间篡改线索，最终送入bbox检测器生成篡改区域坐标。定位损失为 \(\mathcal{L}_{IMG} = \mathcal{L}_1 + \mathcal{L}_{IoU}\)。

Dual-Branch Manipulation Guidance (DBM)：将图像+Artifact特征和文本特征分别作为Query进行交叉注意力交互，形成双分支分类：

\[u_v = \text{Attention}(\hat{E}_{v+a}^m, \hat{E}_t^m, \hat{E}_t^m), \quad u_t = \text{Attention}(\hat{E}_t^m, \hat{E}_{v+a}^m, \hat{E}_{v+a}^m)\]

两路输出各自通过分类器判断篡改与否，增强模型对伪造媒体的敏感度。

关键设计四：Token Redundancy Penalty (TRP)¶

为避免Artifact Token中出现冗余/重复表示，设计了正交性约束和分布调制两个正则项：

正交性约束 \(\mathcal{L}_{orth}\)：基于Gram矩阵，惩罚 \(E_a\) 列向量间的非正交性（鼓励不同token编码不同信息）
分布调制 \(\mathcal{L}_{mod}\)：通过KL散度使每个token的能量分布趋近均匀分布，避免棋盘格模式导致信息损失

损失函数与训练策略¶

总损失为五项之和：

\[\mathcal{L} = \mathcal{L}_{APE} + \mathcal{L}_{DBM} + \mathcal{L}_{IMG} + \mathcal{L}_{TRP} + \mathcal{L}_{LM}\]

推理时所有辅助头（APE、DBM、IMG、TRP）全部丢弃，只保留语言建模输出——这使得推理非常高效。模型通过启发式QA prompt将检测结果（真/假判定、篡改类型、坐标）以纯文本形式输出。

实验关键数据¶

MDSM数据集统计¶

总规模：441,423个样本，5大新闻域（NYT、Guardian、USA Today、Washington Post、BBC）
篡改类型：Face Swap (FS)、Face Attribute (FA)、Text Fabrication (TF)、FS&TF、FA&TF
对比DGM⁴：MDSM是首个同时具备MLLM参与、语义对齐、大规模、多源域的多模态篡改检测benchmark

主实验：MDSM跨域检测 (Table 2)¶

方法	训练域	Params	AVG ACC	AVG mAP	AVG mIoU
Qwen2.5-VL-72B (zero-shot)	—	72B	33.72	33.47	0.06
GPT-4o (zero-shot)	—	—	33.92	33.33	1.17
Gemini-2.0 (zero-shot)	—	—	38.83	32.03	1.72
ViLT	Guardian	121M	76.61	49.90	35.67
HAMMER	Guardian	441M	74.32	48.33	43.23
HAMMER++	Guardian	441M	75.10	49.01	48.49
FKA-Owl	Guardian	6,771M	84.12	58.13	52.20
AMD (Ours)	Guardian	277M	88.18	60.25	61.02

关键发现：AMD以仅277M参数超越6.8B的FKA-Owl（ACC +4.06，mAP +2.12，mIoU +8.82），零样本大模型在该任务上几乎完全失败（mIoU接近0）。

DGM⁴跨域检测 (Table 3)¶

方法	AVG ACC	AVG mAP	AVG P_tok	AVG mIoU
HAMMER	65.45	47.10	77.41	45.97
HAMMER++	65.61	47.36	77.34	46.19
FKA-Owl	71.96	42.68	83.31	44.15
AMD (Ours)	74.47	52.91	80.01	51.87

AMD在传统DGM⁴数据集上同样取得最优综合表现，证明其框架不仅适用于MDSM新场景，也具备对传统篡改设定的泛化能力。

消融实验 (Table 4a)¶

LM	APE	IMG	DBM	TRP	NYT ACC	NYT mAP	NYT mIoU
✓					76.92	46.38	58.77
✓	✓				82.93	47.12	60.13
✓	✓	✓			82.97	47.18	61.78
✓	✓	✓	✓		83.42	66.47	62.14
✓	✓	✓	✓	✓	83.96	69.39	63.56

APE贡献最大：ACC从76.92→82.93（+6.01），证明伪影预感知对于MLLM适配至关重要
DBM提升mAP最显著：47.18→66.47（+19.29），双分支引导大幅增强篡改类型判别能力
TRP提供稳定增益：在各指标上均有小幅但一致的提升，验证了token去冗余的有效性

关键发现¶

文本模态篡改更难检测：FA域内AP为88.45，而TF仅79.84；跨域时FA为71.37，TF仅57.53。这说明MLLM生成的叙事具有更强的欺骗性，也体现了MDSM数据集的挑战性。
跨MLLM泛化：在NYT上训练的AMD测试由Qwen-VL、X-InstructBLIP、LLaVA、mPLUG-Owl生成的叙事，域内AP均>76，跨域AP>53，表明AMD不依赖特定MLLM的生成模式。
效率优势：AMD仅277M参数，推理吞吐量13.38 pairs/s，远优于FKA-Owl的6,771M / 1.33 pairs/s。

亮点与洞察¶

问题定义的前瞻性：首次将"MLLM驱动的语义对齐多模态篡改"明确定义为新威胁场景。传统方法假设图文不一致可被对比学习捕获，但在攻击者刻意维护一致性时完全失效——这是一个被长期忽视但极具现实意义的gap。
Artifact Token设计精巧：不直接修改MLLM的预训练参数，而是通过可学习的外挂token来积累伪影信息，既保留了世界知识又注入了领域能力。冻结编码器+替换嵌入的策略是一种优雅的知识保护方案。
统一文本输出的优势：将检测（真/假）、分类（篡改类型）、定位（bbox坐标）全部以文本形式输出，比HAMMER等多头架构更简洁、更通用、更易扩展。推理时丢弃辅助头也避免了训练-推理不一致问题。
数据集构建思路值得借鉴：先篡改图像，再将篡改元信息（如换入的人名）喂给MLLM生成对齐文本——这种pipeline可以被视为一种对抗性数据增强的通用范式，适用于任何需要语义一致性攻击的场景。

局限性与可改进方向¶

仅聚焦于人脸篡改：当前MDSM数据集只涉及换脸和面部属性编辑，未覆盖场景编辑（如背景替换、物体移除）、全图生成等更广泛的篡改类型。扩展至非人脸中心的篡改场景是重要的未来方向。
文本检测粒度较粗：虽然标注了文本是否被篡改，但没有提供word-level或sentence-level的细粒度标注（不像DGM⁴有fake token grounding）。这限制了对MLLM生成文本中具体虚假部分的定位。
评估局限于新闻域：所有实验均在新闻数据上进行，社交媒体、论坛、即时通讯等非正式文本场景的泛化能力未被验证。
基座模型选择：AMD基于Florence-2（0.27B），如果换用更大的MLLM基座，性能可能进一步提升但也需重新验证效率-效果的trade-off。
对抗鲁棒性未探讨：攻击者可能针对AMD的Artifact Token机制设计自适应攻击，这方面的鲁棒性分析缺失。

评分¶

维度	分数 (1-10)	说明
问题重要性	9	MLLM驱动的语义一致性篡改是真实且被忽视的威胁
方法新颖性	8	Artifact Token + APE + MOR + TRP组合设计精巧
实验充分性	8	跨域、跨MLLM、消融、效率对比齐全
数据集贡献	9	441k大规模语义对齐多模态篡改benchmark，填补空白
写作质量	8	动机阐述清晰，图表专业
总分	8.4	问题定义精准、数据集+方法双贡献，是该领域的重要推进