跳转至

The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts

会议: CVPR 2026
arXiv: 2505.17476
代码: https://github.com/YcZhangSing/AMD
领域: AI安全 / 多模态虚假信息检测
关键词: multimodal manipulation detection, MLLM-driven disinformation, semantic-aligned forgery, deepfake grounding, artifact token

一句话总结

揭示现有多模态篡改检测忽视了MLLM能生成语义一致的欺骗性叙事这一核心威胁,构建441k样本的MDSM语义对齐篡改数据集,并提出基于Artifact Token和操纵导向推理的AMD框架,在跨域检测中以仅0.27B参数达到88.18 ACC / 60.25 mAP / 61.02 mIoU的最优泛化性能。


研究背景与动机

现实威胁

生成式AI的发展使得图像篡改(换脸、属性编辑)愈发逼真,但更大的风险在于:攻击者不再仅仅修改图像,而是利用MLLM(如Qwen2-VL)根据篡改后的图像动态生成语义一致、上下文合理但内容虚假的文字叙事。这种"语义一致性陷阱"(Coherence Trap)使得传统依赖图文不一致性来检测篡改的方法完全失效。

现有方法的两个根本缺陷

低估MLLM驱动的欺骗风险:DGM⁴、HAMMER等主流方法针对的是规则化文本篡改(如简单替换人名/实体),面对MLLM生成的流畅、上下文适配的虚假叙事毫无抵抗力。这些方法的核心假设——图文之间存在可检测的语义不一致——在语义对齐篡改场景下不再成立。

不切实际的不对齐伪影:现有数据集(如DGM⁴)中图像篡改和文本篡改是独立进行的,生成的样本语义不连贯,容易被公众直接识别——根本不需要检测模型。真实世界的攻击者会精心维护视觉-文本一致性以最大化误导效果。

对比学习失效的核心原因

在MDSM场景中,由于篡改后的图像和MLLM生成的文本本身就是完全匹配的,基于对比学习(contrastive learning)的检测范式——如ASAP、HAMMER所采用的——无法从图文对齐度中提取有效线索。模型必须依赖外部知识伪影痕迹(如换脸后的纹理不自然、MLLM生成文本的统计模式)来进行判断。


方法详解

整体框架:AMD (Artifact-aware Manipulation Diagnosis)

AMD建立在Florence-2之上,采用sequence-to-sequence架构,将检测和定位任务统一为文本生成问题。框架分三个阶段:

  1. Multi-modal Input Embedding:将图像、文本和可学习Artifact Token拼接为统一输入序列
  2. Artifact Pre-perception Encoding (APE):通过浅层编码器提取篡改伪影线索并注入Artifact Token
  3. Manipulation-Oriented Reasoning (MOR):通过深层编码器-解码器进行检测推理,生成包含判定结果和坐标的文本输出

关键设计一:Artifact Token 嵌入

引入可学习的Artifact Token \(E_a \in \mathbb{R}^{n_a \times d}\),与图像嵌入 \(E_v\) 和文本嵌入 \(E_t\) 拼接形成输入序列 \(S_{inp} = [E_v; E_a; E_t]\)。Artifact Token的作用是作为"伪影容器",在训练过程中逐步积累篡改相关的模式信息,弥补图文对齐场景中缺失的不一致信号。

关键设计二:Artifact Pre-perception Encoding (APE)

输入序列经过预感知编码器 \(\mathcal{E}_m^p\) 后,提取 \(\hat{E}_a\) 并通过加权池化得到全局伪影表示 \(\bar{E}_a\)

\[\mathcal{W} = m^\top \text{ReLU}(\mathcal{M}\hat{E}_a^\top + b)\]

然后用二分类器判断是否存在篡改痕迹。关键策略

  • 冻结编码器参数:优化分类损失 \(\mathcal{L}_{APE}\) 时冻结 \(\mathcal{E}_m^p\),让更多伪影线索积累到Artifact Token中,同时保留MLLM的原始世界知识
  • 替换输入嵌入:将 \(\hat{S}\) 中的图像和文本嵌入替换回原始 \(E_v, E_t\),仅保留增强后的 \(\hat{E}_a\),形成 \(S_a = [E_v; \hat{E}_a; E_t]\)

关键设计三:Manipulation-Oriented Reasoning (MOR)

MOR包含两个辅助任务引导推理:

Visual Artifact Capture via Grounding (VAA):将Artifact Token \(\hat{E}_a^m\) 通过注意力池化得到查询向量 \(q_a\),再通过交叉注意力从图像特征 \(\hat{E}_v^m\) 中聚合空间篡改线索,最终送入bbox检测器生成篡改区域坐标。定位损失为 \(\mathcal{L}_{IMG} = \mathcal{L}_1 + \mathcal{L}_{IoU}\)

Dual-Branch Manipulation Guidance (DBM):将图像+Artifact特征和文本特征分别作为Query进行交叉注意力交互,形成双分支分类:

\[u_v = \text{Attention}(\hat{E}_{v+a}^m, \hat{E}_t^m, \hat{E}_t^m), \quad u_t = \text{Attention}(\hat{E}_t^m, \hat{E}_{v+a}^m, \hat{E}_{v+a}^m)\]

两路输出各自通过分类器判断篡改与否,增强模型对伪造媒体的敏感度。

关键设计四:Token Redundancy Penalty (TRP)

为避免Artifact Token中出现冗余/重复表示,设计了正交性约束和分布调制两个正则项:

  • 正交性约束 \(\mathcal{L}_{orth}\):基于Gram矩阵,惩罚 \(E_a\) 列向量间的非正交性(鼓励不同token编码不同信息)
  • 分布调制 \(\mathcal{L}_{mod}\):通过KL散度使每个token的能量分布趋近均匀分布,避免棋盘格模式导致信息损失

损失函数与训练策略

总损失为五项之和:

\[\mathcal{L} = \mathcal{L}_{APE} + \mathcal{L}_{DBM} + \mathcal{L}_{IMG} + \mathcal{L}_{TRP} + \mathcal{L}_{LM}\]

推理时所有辅助头(APE、DBM、IMG、TRP)全部丢弃,只保留语言建模输出——这使得推理非常高效。模型通过启发式QA prompt将检测结果(真/假判定、篡改类型、坐标)以纯文本形式输出。


实验关键数据

MDSM数据集统计

  • 总规模:441,423个样本,5大新闻域(NYT、Guardian、USA Today、Washington Post、BBC)
  • 篡改类型:Face Swap (FS)、Face Attribute (FA)、Text Fabrication (TF)、FS&TF、FA&TF
  • 对比DGM⁴:MDSM是首个同时具备MLLM参与、语义对齐、大规模、多源域的多模态篡改检测benchmark

主实验:MDSM跨域检测 (Table 2)

方法 训练域 Params AVG ACC AVG mAP AVG mIoU
Qwen2.5-VL-72B (zero-shot) 72B 33.72 33.47 0.06
GPT-4o (zero-shot) 33.92 33.33 1.17
Gemini-2.0 (zero-shot) 38.83 32.03 1.72
ViLT Guardian 121M 76.61 49.90 35.67
HAMMER Guardian 441M 74.32 48.33 43.23
HAMMER++ Guardian 441M 75.10 49.01 48.49
FKA-Owl Guardian 6,771M 84.12 58.13 52.20
AMD (Ours) Guardian 277M 88.18 60.25 61.02

关键发现:AMD以仅277M参数超越6.8B的FKA-Owl(ACC +4.06,mAP +2.12,mIoU +8.82),零样本大模型在该任务上几乎完全失败(mIoU接近0)。

DGM⁴跨域检测 (Table 3)

方法 AVG ACC AVG mAP AVG P_tok AVG mIoU
HAMMER 65.45 47.10 77.41 45.97
HAMMER++ 65.61 47.36 77.34 46.19
FKA-Owl 71.96 42.68 83.31 44.15
AMD (Ours) 74.47 52.91 80.01 51.87

AMD在传统DGM⁴数据集上同样取得最优综合表现,证明其框架不仅适用于MDSM新场景,也具备对传统篡改设定的泛化能力。

消融实验 (Table 4a)

LM APE IMG DBM TRP NYT ACC NYT mAP NYT mIoU
76.92 46.38 58.77
82.93 47.12 60.13
82.97 47.18 61.78
83.42 66.47 62.14
83.96 69.39 63.56
  • APE贡献最大:ACC从76.92→82.93(+6.01),证明伪影预感知对于MLLM适配至关重要
  • DBM提升mAP最显著:47.18→66.47(+19.29),双分支引导大幅增强篡改类型判别能力
  • TRP提供稳定增益:在各指标上均有小幅但一致的提升,验证了token去冗余的有效性

关键发现

  • 文本模态篡改更难检测:FA域内AP为88.45,而TF仅79.84;跨域时FA为71.37,TF仅57.53。这说明MLLM生成的叙事具有更强的欺骗性,也体现了MDSM数据集的挑战性。
  • 跨MLLM泛化:在NYT上训练的AMD测试由Qwen-VL、X-InstructBLIP、LLaVA、mPLUG-Owl生成的叙事,域内AP均>76,跨域AP>53,表明AMD不依赖特定MLLM的生成模式。
  • 效率优势:AMD仅277M参数,推理吞吐量13.38 pairs/s,远优于FKA-Owl的6,771M / 1.33 pairs/s。

亮点与洞察

  1. 问题定义的前瞻性:首次将"MLLM驱动的语义对齐多模态篡改"明确定义为新威胁场景。传统方法假设图文不一致可被对比学习捕获,但在攻击者刻意维护一致性时完全失效——这是一个被长期忽视但极具现实意义的gap。

  2. Artifact Token设计精巧:不直接修改MLLM的预训练参数,而是通过可学习的外挂token来积累伪影信息,既保留了世界知识又注入了领域能力。冻结编码器+替换嵌入的策略是一种优雅的知识保护方案。

  3. 统一文本输出的优势:将检测(真/假)、分类(篡改类型)、定位(bbox坐标)全部以文本形式输出,比HAMMER等多头架构更简洁、更通用、更易扩展。推理时丢弃辅助头也避免了训练-推理不一致问题。

  4. 数据集构建思路值得借鉴:先篡改图像,再将篡改元信息(如换入的人名)喂给MLLM生成对齐文本——这种pipeline可以被视为一种对抗性数据增强的通用范式,适用于任何需要语义一致性攻击的场景。


局限性与可改进方向

  1. 仅聚焦于人脸篡改:当前MDSM数据集只涉及换脸和面部属性编辑,未覆盖场景编辑(如背景替换、物体移除)、全图生成等更广泛的篡改类型。扩展至非人脸中心的篡改场景是重要的未来方向。

  2. 文本检测粒度较粗:虽然标注了文本是否被篡改,但没有提供word-level或sentence-level的细粒度标注(不像DGM⁴有fake token grounding)。这限制了对MLLM生成文本中具体虚假部分的定位。

  3. 评估局限于新闻域:所有实验均在新闻数据上进行,社交媒体、论坛、即时通讯等非正式文本场景的泛化能力未被验证。

  4. 基座模型选择:AMD基于Florence-2(0.27B),如果换用更大的MLLM基座,性能可能进一步提升但也需重新验证效率-效果的trade-off。

  5. 对抗鲁棒性未探讨:攻击者可能针对AMD的Artifact Token机制设计自适应攻击,这方面的鲁棒性分析缺失。


相关工作与启发

  • DGM⁴ / HAMMER:多模态篡改检测的代表工作,但假设图文不一致——MDSM场景下性能大幅下降。
  • FKA-Owl:基于MLLM的检测方法(6.8B参数),在部分指标上接近AMD但参数量大24倍,表明轻量化设计的重要性。
  • Florence-2:AMD的基座模型,提供了强大的视觉-语言预训练知识和统一的seq2seq架构。
  • 启发意义:对于任何需要"用MLLM检测MLLM生成内容"的场景(如AI生成文本检测、合成图像检测),本文的Artifact Token + 知识保留策略提供了可借鉴的设计范式。可学习外挂token + 冻结预训练参数的思路也值得在其他domain adaptation场景中探索。

评分

维度 分数 (1-10) 说明
问题重要性 9 MLLM驱动的语义一致性篡改是真实且被忽视的威胁
方法新颖性 8 Artifact Token + APE + MOR + TRP组合设计精巧
实验充分性 8 跨域、跨MLLM、消融、效率对比齐全
数据集贡献 9 441k大规模语义对齐多模态篡改benchmark,填补空白
写作质量 8 动机阐述清晰,图表专业
总分 8.4 问题定义精准、数据集+方法双贡献,是该领域的重要推进

相关论文