Veritas: Generalizable Deepfake Detection via Pattern-Aware Reasoning¶
会议: ICLR 2026
arXiv: 2508.21048
代码: https://github.com/EricTan7/Veritas (有)
领域: AI Safety / 多模态VLM / Deepfake Detection
关键词: Deepfake Detection, MLLM, Pattern-Aware Reasoning, Reinforcement Learning, HydraFake
一句话总结¶
提出 Veritas,一个基于多模态大语言模型 (MLLM) 的 deepfake 检测器,通过模式感知推理 (pattern-aware reasoning) 模拟人类鉴伪思维过程(快速判断→推理→计划→自我反思→结论),设计两阶段训练流程(SFT+MiPO 冷启动 + P-GRPO 强化学习),同时构建包含四级 OOD 评估的 HydraFake 数据集,在跨伪造类型和跨域场景平均达到 90.7% 准确率,超越此前 SOTA 6.0%。
研究背景与动机¶
领域现状:Deepfake 检测主流做法是在 FF++ 上训练,在 DFDC、CelebDF 等数据集上测试跨域泛化能力。近期也有基于 MLLM 的方法(如 FFAA、M2F2-Det、FakeVLM)尝试引入可解释性,但最终分类决策仍依赖小型视觉模型(如 CLIP),MLLM 仅作为"后验解释器"。
现有痛点: - Benchmark 与工业实践脱节:现有基准训练源单一(仅 FF++)、测试图像质量低,无法模拟实际场景中训练数据丰富但测试分布多变的挑战 - 跨伪造类型泛化差:已有检测器在 Cross-Model 场景表现尚可(>90%),但在 Cross-Forgery(face restoration、personalization 等新型伪造)和 Cross-Domain(社交媒体真实 deepfake)场景严重退化,多数低于 85% - MLLM 推理能力未被真正利用:基于 MLLM 的方法大多是"先判断真假再生成解释"的后验范式,推理过程并未参与决策
核心矛盾:现有检测器学到的是特定伪造类型的 artifact 模式,缺乏类人的层次化推理能力来应对 OOD 伪造。直接让通用 MLLM 做 deepfake 检测效果极差(InternVL3-8B 仅 58.3%,GPT-4o 仅 60.8%),因为缺乏针对性的推理训练数据和训练策略。
本文目标 - Q1:什么样的推理过程对 deepfake 检测最有效?→ 答:模式感知推理(pattern-aware reasoning) - Q2:如何让模型真正"学会推理"而非"记忆模式"?→ 答:MiPO + P-GRPO 两阶段训练
切入角度:借鉴人类鉴伪思维——先快速判断(fast judgement),再定位关键 artifact(reasoning),对困难样本做分层分析(planning),可能进行深入反思推翻初始判断(self-reflection),最终综合结论(conclusion)。将这 5 种思维模式形式化并通过 SFT 注入 + 偏好对齐 + 强化学习逐步内化到 MLLM 中。
核心 idea:将人类鉴伪的结构化思维模式显式注入 MLLM,通过 pattern-aware 的奖励机制激励模型在合适时机使用合适的推理深度,实现端到端的透明决策。
方法详解¶
整体框架¶
Veritas 基于 InternVL3-8B 构建,采用两阶段训练流程:
- Stage 1 — Pattern-Guided Cold-Start:先用 SFT 注入推理格式(36K 样本),再用 MiPO(Mixed Preference Optimization)对齐推理质量(3K 人工标注偏好对)
- Stage 2 — Pattern-Aware Exploration:用 P-GRPO(Pattern-aware Group Relative Policy Optimization)通过在线采样和模式感知奖励进一步激励自适应推理(9K 样本,仅需二分类标签)
输入为人脸图像 + 用户查询,输出为包含推理过程的结构化回答(<think> 块内含 <fast>、<reasoning>、<planning>、<reflection>、<conclusion> 等 pattern 标签)以及最终真伪判断。
关键设计¶
-
HydraFake 数据集与四级评估协议:
- 功能:构建贴近工业场景的大规模 deepfake 检测 benchmark
- 核心思路:50K 真实(来自 88 个数据集)+ 50K 伪造(36 种生成模型),涵盖 face swapping、reenactment、全脸合成、face restoration、relighting、personalization 等。训练集仅含 3 种基础伪造类型(FS/FR/EFG,48K 图像),评估分四级——In-Domain (14K)、Cross-Model (11K, FLUX/StarryAI/MAGI-1 等未见模型)、Cross-Forgery (12K, 属性编辑/生成式换脸/个性化等未见伪造)、Cross-Domain (15K, 未见数据域+社交媒体野生 deepfake 如 GPT-4o/Dreamina/HailuoAI)
- 设计动机:模拟真实场景中训练数据充足但测试分布多变的挑战,精确定位检测器在不同 OOD 层级的弱点
- 质量控制:排除低质量数据集(DFDC、WDF),对自构建数据用 Qwen2.5-VL-72B 生成 sample-specific prompt,人工筛选高质量样本
-
Pattern-Aware Reasoning 框架:
- 功能:定义 5 种推理模式来模拟人类鉴伪思维流程
- 核心思路:
<fast>快速直觉判断 →<reasoning>定位 1-2 个显著 artifact →<planning>对困难样本做分层分析 →<reflection>自我反思推翻或支持初始判断 →<conclusion>综合所有证据得出最终结论。模型在推理过程中自适应使用这些 pattern,简单样本可能只用 fast+reasoning+conclusion,困难样本才调用 planning 和 reflection - 设计动机:vanilla CoT 缺乏结构化的思维引导,模型容易产生表面化推理。实验证明 pattern-aware reasoning 相比 flexible reasoning 在 Cross-Forgery 上提升 6.2%,在 Cross-Domain 上提升 3.3%
- 与 Post-hoc Explanation 的关键区别:后者先确定答案再找理由,推理不参与决策(准确率低 8.4%);Veritas 的推理过程直接驱动最终判断
-
Mixed Preference Optimization (MiPO):
- 功能:在 SFT 之后对齐推理质量,防止模型"记忆"而非"推理"
- 核心思路:构建混合非偏好数据集 \(\mathcal{D}_2\),包含两类负样本——\(s_l^\phi\)(答案正确但推理粗糙/不够详细)和 \(s_l^\psi\)(答案错误)。正样本 \(s_w\) 由人工专家精标。训练目标采用 DPO 风格损失:\(\mathcal{L}_2 = -\mathbb{E}[\log\sigma(\beta\log\frac{\pi_\theta(s_w|q)}{\pi_{\text{SFT}}(s_w|q)} - \beta\log\frac{\pi_\theta(s_l|q)}{\pi_{\text{SFT}}(s_l|q)})]\)
- 设计动机:纯 SFT 模型容易产生"答案正确但推理浅薄"的输出。\(s_l^\phi\) 这类"答对但理由不充分"的负样本迫使模型学会精细化推理。实验验证:去掉 \(s_l^\phi\) 后 CF -1.1%、CD -0.8%;去掉 \(s_l^\psi\) 模型崩溃至 60.8%
- 与标准 DPO 的区别:引入了"答案正确但推理不够好"这一新类别的非偏好数据,传统 DPO 通常只用答案错误作为负样本
-
Pattern-Aware GRPO (P-GRPO):
- 功能:通过强化学习激励自适应推理深度,让模型在需要时主动使用 planning 和 reflection
- 核心思路:对每个 query 采样 \(G=4\) 个 response,通过 pattern-aware reward 评估质量。最终奖励 \(R = R_{\text{pattern}} + \lambda_1 R_{\text{ref}} \cdot \mathbb{I}(\mathcal{C}=1) + \lambda_2 R_{\text{fmt}}\)
- \(R_{\text{pattern}}\) 的精妙设计:答对且使用了 planning/reflection → +2.0;答对但没用高级 pattern → +1.0;答错无高级 pattern → 0.0;答错且用了 planning → -0.5;答错且用了 reflection → -1.0(最重惩罚,因为 reflection 是最强的 pattern,用了还错代价最大)
- \(R_{\text{ref}}\)(反思质量奖励):用外部奖励模型(UnifiedReward-Qwen-3B)评估 reflection 是否引入了新视角(而非重复已有发现),仅在答案正确时给予
- 设计动机:与用长度奖励鼓励更长推理的方法不同,作者认为绝对推理长度不重要,重要的是"在合适的时机使用合适的思维模式"。对 overthinking 施加惩罚防止模型滥用 reflection
训练策略¶
- 数据标注流水线:设计三步解耦标注——(1) 人工总结 artifact 分类法(感知层结构异常 / 微妙底层伪影 / 违反物理常识的认知异常);(2) 将标注解耦为三个专门步骤由 MLLM 自动完成;(3) 生成 36K SFT 样本
- SFT 阶段:LoRA (rank=128, α=256),3 epochs,lr=5e-5,batch size=64
- MiPO 阶段:3K 人工标注偏好对,2 epochs,DPO 目标,\(\beta\) 设为 0
- P-GRPO 阶段:9K 图像(仅需真/假二分类标签),G=4 采样,lr=1e-6,2 epochs,temperature=1.0
- 三阶段衔接:每阶段直接继承上一阶段模型
实验关键数据¶
主实验¶
| 方法 | 类型 | ID | Cross-Model | Cross-Forgery | Cross-Domain | 平均 Acc |
|---|---|---|---|---|---|---|
| F3Net (ECCV'20) | 小型视觉模型 | 85.3 | 84.3 | 69.6 | 67.2 | 73.2 |
| UniFD (CVPR'23) | 小型视觉模型 | 82.7 | 87.5 | 72.1 | 72.8 | 78.0 |
| ProDet (NeurIPS'24) | 小型视觉模型 | 90.5 | 92.3 | 73.5 | 74.0 | 80.6 |
| Co-SPY (CVPR'25) | 小型视觉模型 | 86.3 | 93.2 | 85.8 | 75.1 | 84.7 |
| Effort (ICML'25) | 小型视觉模型 | 94.7 | 90.7 | 86.0 | 63.9 | 82.2 |
| GPT-4o | 闭源MLLM | 53.5 | 59.5 | 58.4 | 67.4 | 60.8 |
| Gemini-2.5-Pro | 闭源MLLM | 72.2 | 81.5 | 82.4 | 73.8 | 78.9 |
| FakeVLM (NeurIPS'25) | MLLM检测器 | - | 77.0 | 75.7 | 78.5 | 77.3 |
| SIDA-7B (CVPR'25) | MLLM检测器 | - | 87.9 | 67.2 | 73.0 | 76.3 |
| Veritas-mini | Ours (限制训练范围) | - | 93.0 | 78.9 | 84.3 | 85.8 |
| Veritas (cold-start) | Ours (仅冷启动) | 96.8 | 95.8 | 80.6 | 82.2 | 87.3 |
| Veritas (full) | Ours | 97.3 | 98.6 | 90.3 | 82.2 | 90.7 |
Veritas 相比此前最优 Co-SPY (84.7%) 平均提升 6.0%;相比基座模型 InternVL3-8B (58.3%) 提升 32.4%;相比最强闭源 Gemini-2.5-Pro 提升 11.8%。
消融实验¶
| 配置 | ID | CM | CF | CD | Avg | 说明 |
|---|---|---|---|---|---|---|
| Full (Pattern-aware + MiPO + P-GRPO) | 97.3 | 98.6 | 90.3 | 82.2 | 92.1 | 完整模型 |
| w/o P-GRPO (仅冷启动) | 96.9 | 98.4 | 87.4 | 80.1 | 90.7 | 去掉 RL,CF -2.9% |
| w/o MiPO (SFT + P-GRPO) | - | - | 87.4 | 80.1 | 90.7 | MiPO 为 RL 提供更好起点 |
| w/o Reasoning | 97.8 | 93.3 | 73.0 | 69.5 | - | 无推理,CF 暴跌 17.3% |
| Post-hoc Explanation | 96.3 | 95.0 | 79.0 | 76.8 | - | 后验解释范式 |
| Flexible Reasoning (vanilla CoT) | 96.2 | 94.3 | 81.2 | 76.8 | 87.1 | 自由推理,CF 低 9.1% |
w/o <reflection> |
97.0 | 97.2 | 82.5 | 77.3 | 88.5 | 贡献最大的 pattern |
w/o <planning> |
96.7 | 96.9 | 85.0 | 80.1 | 89.7 | 对 CM 影响最大 |
w/o <fast> |
97.3 | 98.8 | 86.9 | 79.1 | 90.5 | 影响较小 |
w/o <conclusion> |
97.2 | 98.2 | 86.2 | 79.0 | 90.1 | 提供稳定增益 |
| MiPO w/o \(s_l^\phi\) | 96.9 | 98.6 | 89.2 | 81.4 | 91.5 | 去掉"答对但推理差"负样本 |
| MiPO w/o \(s_l^\psi\) | 65.3 | 64.8 | 58.6 | 54.3 | 60.8 | 模型崩溃 |
关键发现¶
<reflection>是最关键的推理模式:去掉后 CF 从 87.4% 降到 82.5%(-4.9%),CD 从 80.1% 降到 77.3%(-2.8%)。自我反思帮助模型发现未见过的伪造 artifact,对 OOD 泛化至关重要- Cold-start 是 RL 成功的前提:没有冷启动直接做 RL(即使用相同数据量),由于低质量 rollout 导致训练不稳定,所有纯 RL 配置均不如两阶段流程
- MiPO 中的 \(s_l^\phi\)(答对但推理差的负样本)虽非"必须"但对 OOD 很重要:去掉后模型仍能答对,但推理变浅薄,CF -1.1%、CD -0.8%;而 \(s_l^\psi\)(答案错误)是偏好学习的基础,去掉则崩溃
- 模型规模效应:InternVL3-2B 即可达 CF 87.3%(成本友好),8B→14B 在 CF 上 +2.9%(CM 99.3%),具有良好可扩展性
- 鲁棒性强:Veritas 在 JPEG 压缩 QF=50 下仍达 87.4%(Effort 仅 66.3%),高斯模糊 σ=2.0 下达 84.3%(Co-SPY 仅 77.0%),且训练时未使用任何此类数据增强
- 推理质量评估:在 MLLM-as-Judge 评估中(GPT-4o + Gemini-2.5-Pro 做评判),Veritas (w/ MiPO) 以 ELO 1359 大幅领先 Gemini-2.5-Pro (967) 和 GPT-4o (785)
亮点与洞察¶
- Pattern-aware reward 设计精妙:不是简单鼓励更长推理,而是奖励"在合适时机使用合适 pattern",且对 overthinking 施加递进惩罚(planning 错 -0.5,reflection 错 -1.0)。这种细粒度 pattern-level 奖励设计可迁移到任何需要结构化推理的任务(如医学诊断推理、法律案例分析)
- MiPO 的"答对但理由差"负样本是被忽视的训练信号:传统 DPO 只用"答错"作负样本,MiPO 增加了"答对但推理不精细"这一类别,迫使模型不仅要答对,还要"以正确的方式答对"。这对任何需要可解释推理的 MLLM 任务都有参考价值
- HydraFake 的四级评估协议揭示了检测器真正短板:现有方法在 Cross-Model 上已经很好(>90%),但 Cross-Forgery 和 Cross-Domain 是真正瓶颈。这个发现改变了该领域的评估视角
- 两阶段解耦设计各司其职:MiPO 确保高质量 rollout 为 P-GRPO 提供好的起点(通过提升初始推理质量),P-GRPO 通过在线采样进一步探索推理空间。两者单独都有效,组合效果叠加(CF: SFT 87.4 → +MiPO 或 +P-GRPO → +Both 90.3)
局限与展望¶
- 数据标注成本仍然不低:MiPO 需要人工专家标注 3K 偏好对,SFT 数据的三步标注流水线虽然用了 MLLM 辅助但仍需大量人工校验,限制了方法的可扩展性
- 仅限人脸 deepfake:HydraFake 和 Veritas 仅针对 face deepfake,不覆盖通用 AIGC 检测(如风景、物体、场景合成),泛化到非人脸域的效果未知
- Cross-Domain 仍有提升空间:82.2% 的 CD 准确率意味着仍有近 1/5 的野生 deepfake 被漏检。特别是来自 FFIW 的样本仅 78.5%,来自 InfiniteYou (CD) 的仅 58.6%(cold-start 甚至仅 55.9%)
- 推理效率:MLLM 生成推理链的推理延迟远高于小型 CNN 检测器,实际部署需考虑延迟 vs 准确率 tradeoff
- 奖励模型依赖:reflection quality reward 依赖外部模型 (UnifiedReward-Qwen-3B),其自身偏差可能传导到训练中;且仅用 3B 模型评估 8B 模型的输出质量,规模不匹配
相关工作与启发¶
- vs FFAA / M2F2-Det: 这些方法用 MLLM 做可解释性但最终分类仍依赖 CLIP 等小模型,属于"MLLM 辅助"范式;Veritas 让 MLLM 直接端到端输出判断 + 推理链,实现了真正的推理驱动检测。FFAA 在 HydraFake 上仅 64.0%,M2F2-Det 仅 63.2%
- vs FakeVLM / SIDA: FakeVLM 使用后验解释范式但覆盖面广(77.3%),SIDA-7B 在 Cross-Model 上很强(97.3%)但 Cross-Forgery 崩溃(63.3%);Veritas 通过 pattern-aware reasoning 在各场景均衡发展
- vs Effort / Co-SPY: 最强小型视觉模型检测器,Effort 在 ID 上最强(94.7%)但 CD 仅 63.9%;Co-SPY 更均衡(84.7%)但仍显著低于 Veritas。小模型在 Cross-Domain 上的劣势说明 MLLM 的通用知识对 OOD 泛化有不可替代的价值
- vs DeepSeek-R1 / s1 等通用推理方法: Veritas 的 pattern-aware reward 是对通用 GRPO 的任务特化版,证明了在垂直领域中,领域驱动的推理 pattern 比通用 CoT 更有效。这个思路可迁移到医学图像分析、遥感目标检测等需要结构化推理的视觉任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 将结构化推理 pattern 引入 deepfake 检测并设计 pattern-aware 奖励,思路新颖;但核心训练组件 SFT+DPO+GRPO 并非原创
- 实验充分度: ⭐⭐⭐⭐⭐ 自建大规模 benchmark + 10 个 SOTA 检测器 + 6 个通用 MLLM + 6 个 MLLM 检测器对比 + 详细消融 + 鲁棒性 + 推理质量评估,非常全面
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,figure 设计精良,narrative 流畅;部分公式堆叠较密集
- 价值: ⭐⭐⭐⭐⭐ 同时贡献 benchmark (HydraFake) 和方法 (Veritas),冷启动模型开源可供社区定制,对 deepfake 检测领域有重要推动
相关论文¶
- [ICCV 2025] Vulnerability-Aware Spatio-Temporal Learning for Generalizable Deepfake Video Detection
- [ICLR 2026] From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning
- [CVPR 2026] Tutor-Student Reinforcement Learning: A Dynamic Curriculum for Robust Deepfake Detection
- [ICLR 2026] Membership Privacy Risks of Sharpness Aware Minimization
- [ICLR 2026] Watermark-based Detection and Attribution of AI-Generated Content