Visual Language Models as Zero-Shot Deepfake Detectors¶
会议: ICML 2025
arXiv: 2507.22469
代码: 无
领域: AI安全 / 多模态VLM
关键词: Deepfake检测, 视觉语言模型, 零样本分类, VLM概率校准, InstructBLIP
一句话总结¶
提出基于 VLM token 概率归一化的图像分类框架,将 deepfake 检测从二元判断升级为概率估计,在零样本设置下用 InstructBLIP 超越多数专用 deepfake 检测器,微调后在 DFDC-P 上接近完美。
研究背景与动机¶
领域现状:Deepfake 检测方法大多训练专用分类器(FaceForensics++、SBI、MAT 等),依赖标注数据且对新型 deepfake 泛化差。
现有痛点:(a) 现有检测器在分布外数据上性能急剧下降;(b) 已有 VLM deepfake 研究只做 yes/no 二元判断,无法输出置信度概率;(c) 缺乏 FAR/FRR 等实际部署指标的支持。
核心矛盾:真实部署需要概率输出来调节阈值(平衡误报率和漏报率),但 VLM 的 argmax 输出只能给 0/1。
本文目标 如何从 VLM 的 token 分布中提取有意义的分类置信度?
切入角度:利用 VLM 在"Is this photo real?"回答时 "yes"/"no" token 的概率比作为置信度。
核心 idea:将 yes/no token 概率归一化为 \(\tilde{P}_{\text{fake}} = P_{\text{no}} / (P_{\text{no}} + P_{\text{yes}})\),得到可用于 ROC 分析的连续置信度。
方法详解¶
整体框架¶
给定图像和提示词(如 "Is this photo real?"),VLM 做一次 forward pass 得到 token 分布。提取 "yes"/"Yes"/"no"/"No" 等 token 的概率,分组求和并归一化,得到 fake 置信度用于下游决策。
关键设计¶
-
Token 概率归一化分类:
- 功能:从 VLM 的 token 分布中提取分类置信度
- 核心思路:\(P(I \in D) \approx \frac{P_{\text{no}}}{P_{\text{no}} + P_{\text{yes}}}\),其中 \(P_{\text{no}} = p(\text{"no"}) + p(\text{"No"})\),\(P_{\text{yes}} = p(\text{"yes"}) + p(\text{"Yes"})\)
- 设计动机:相比 argmax(0/1 输出),归一化概率支持 AUC/EER 评估和阈值调节
-
多token/多类扩展 (Algorithm 1):
- 功能:支持多 token 回答(如 "Yes for sure!")和多分类
- 核心思路:对类别 \(c\) 的所有候选回答字符串 \(s \in \mathcal{S}_c\),计算自回归概率 \(P(s|I,Q) = \prod_k p(t_k|I,Q,t_{1:k-1}) \cdot p(\text{EOS}|I,Q,s)\),再求和归一化
- 设计动机:不同 VLM 的 tokenizer 不一致,需要覆盖所有可能的回答形式
-
Prompt Engineering:
- 功能:针对不同 VLM 设计专用提示词
- 核心思路:InstructBLIP 只需 "Is this photo real?";LLaVA 需加 "Answer using a single word";GPT-4o 需要角色扮演式长 prompt
- 设计动机:确保模型一致地返回 yes/no 格式回答
实验关键数据¶
主实验(零样本 vs 专用检测器,CelebA-HQ SimSwap 数据集)¶
| 方法 | AUC ↑ | ACC ↑ | EER ↓ |
|---|---|---|---|
| FF++ (XceptionNet) | 58.9 | 59.2 | 44.5 |
| MAT | 49.0 | 50.0 | 50.6 |
| RECCE | 46.9 | 49.1 | 50.8 |
| SBI (SOTA 专用) | 93.6 | 85.2 | 14.0 |
| InstructBLIP (零样本) | 81.3 | 75.3 | 26.9 |
| InstructBLIP FT | 92.1 | 85.0 | 12.2 |
方法对比(归一化 vs softmax vs 二元)¶
| VLM | Binary ACC | Normalize AUC | Softmax AUC |
|---|---|---|---|
| InstructBLIP | 68.0 | 81.3 | 80.9 |
| Idefics2 | 74.2 | 80.6 | 75.2 |
| LLaVA-1.6 | 58.3 | 74.2 | 74.2 |
关键发现¶
- 归一化方法在所有 VLM 上均优于 binary argmax(最高提升 ~16% AUC)
- 零样本 InstructBLIP 超越大多数专门训练的检测器(仅逊于 SBI + CADDM)
- 微调 InstructBLIP 后达到 92.1% AUC,接近 SBI 的 93.6%
亮点与洞察¶
- 实用框架:token 概率归一化方法通用于任何使用 VLM 的分类任务,不限于 deepfake
- 零样本能力展示:VLM 的预训练知识足以在新型 deepfake 上达到可用性能
- 多token 扩展:Algorithm 1 的自回归概率累乘支持任意长度回答
相关工作与启发¶
- vs AntifakePrompt: AntifakePrompt 在 InstructBLIP 上微调 soft prompt 做 deepfake VQA,但仅输出 0/1;本文不需微调且输出概率
- vs SHIELD/ChatGPT deepfake: 这些工作定性评估了 GPT-4V/Gemini 的 deepfake 检测能力,但未系统量化 token 概率;本文提出了完整的概率化框架
- vs SBI (SOTA): SBI 通过自混合数据增强训练高泛化性分类器;本文的 VLM 方案完全零样本,虽 AUC 略低但无需任何 deepfake 训练数据
- 该 token 概率归一化框架可直接复用于任何需要从 VLM 获取分类置信度的场景(如医学影像分析、内容审核)
局限与展望¶
- 仅测试了人脸 swap 型 deepfake,未涵盖全脸生成(StyleGAN)、表情操纵(Face2Face)等类型
- GPT-4o 无法获取 token 概率,仅能做 binary 评估,限制了闭源模型的应用
- VLM 推理速度远慢于轻量级分类器(如 EfficientNet),实际部署需考虑延迟
- 新 deepfake 方法(如 Flux 生成的全身 deepfake)的测试缺失
- 多 token 回答的扩展虽有理论描述,但实验中未系统验证
评分¶
- 新颖性: ⭐⭐⭐⭐ token 概率归一化分类是简洁有效的创新
- 实验充分度: ⭐⭐⭐⭐ 多 VLM + 多检测器对比全面
- 写作质量: ⭐⭐⭐⭐ 方法推导清晰,prompt 和 algorithm 细节完整
- 价值: ⭐⭐⭐⭐ 开拓了 VLM 在安全检测中的新应用范式
相关论文¶
- [ICML 2025] Zero-Shot Adaptation of Parameter-Efficient Fine-Tuning in Diffusion Models
- [NeurIPS 2025] Towards Robust Zero-Shot Reinforcement Learning
- [NeurIPS 2025] Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models
- [CVPR 2025] Visual Lexicon: Rich Image Features in Language Space
- [CVPR 2025] Zero-Shot Image Restoration Using Few-Step Guidance of Consistency Models (and Beyond)