Visual Language Models as Zero-Shot Deepfake Detectors¶

会议: ICML 2025
arXiv: 2507.22469
代码: 无
领域: AI安全 / 多模态VLM
关键词: Deepfake检测, 视觉语言模型, 零样本分类, VLM概率校准, InstructBLIP

一句话总结¶

提出基于 VLM token 概率归一化的图像分类框架，将 deepfake 检测从二元判断升级为概率估计，在零样本设置下用 InstructBLIP 超越多数专用 deepfake 检测器，微调后在 DFDC-P 上接近完美。

领域现状：Deepfake 检测方法大多训练专用分类器（FaceForensics++、SBI、MAT 等），依赖标注数据且对新型 deepfake 泛化差。

现有痛点：(a) 现有检测器在分布外数据上性能急剧下降；(b) 已有 VLM deepfake 研究只做 yes/no 二元判断，无法输出置信度概率；(c) 缺乏 FAR/FRR 等实际部署指标的支持。

核心矛盾：真实部署需要概率输出来调节阈值（平衡误报率和漏报率），但 VLM 的 argmax 输出只能给 0/1。

本文目标 如何从 VLM 的 token 分布中提取有意义的分类置信度？

切入角度：利用 VLM 在"Is this photo real?"回答时 "yes"/"no" token 的概率比作为置信度。

核心 idea：将 yes/no token 概率归一化为 \(\tilde{P}_{\text{fake}} = P_{\text{no}} / (P_{\text{no}} + P_{\text{yes}})\)，得到可用于 ROC 分析的连续置信度。

给定图像和提示词（如 "Is this photo real?"），VLM 做一次 forward pass 得到 token 分布。提取 "yes"/"Yes"/"no"/"No" 等 token 的概率，分组求和并归一化，得到 fake 置信度用于下游决策。

Token 概率归一化分类:
- 功能：从 VLM 的 token 分布中提取分类置信度
- 核心思路：\(P(I \in D) \approx \frac{P_{\text{no}}}{P_{\text{no}} + P_{\text{yes}}}\)，其中 \(P_{\text{no}} = p(\text{"no"}) + p(\text{"No"})\)，\(P_{\text{yes}} = p(\text{"yes"}) + p(\text{"Yes"})\)
- 设计动机：相比 argmax（0/1 输出），归一化概率支持 AUC/EER 评估和阈值调节
多token/多类扩展 (Algorithm 1):
- 功能：支持多 token 回答（如 "Yes for sure!"）和多分类
- 核心思路：对类别 \(c\) 的所有候选回答字符串 \(s \in \mathcal{S}_c\)，计算自回归概率 \(P(s|I,Q) = \prod_k p(t_k|I,Q,t_{1:k-1}) \cdot p(\text{EOS}|I,Q,s)\)，再求和归一化
- 设计动机：不同 VLM 的 tokenizer 不一致，需要覆盖所有可能的回答形式
Prompt Engineering:
- 功能：针对不同 VLM 设计专用提示词
- 核心思路：InstructBLIP 只需 "Is this photo real?"；LLaVA 需加 "Answer using a single word"；GPT-4o 需要角色扮演式长 prompt
- 设计动机：确保模型一致地返回 yes/no 格式回答

方法	AUC ↑	ACC ↑	EER ↓
FF++ (XceptionNet)	58.9	59.2	44.5
MAT	49.0	50.0	50.6
RECCE	46.9	49.1	50.8
SBI (SOTA 专用)	93.6	85.2	14.0
InstructBLIP (零样本)	81.3	75.3	26.9
InstructBLIP FT	92.1	85.0	12.2

VLM	Binary ACC	Normalize AUC	Softmax AUC
InstructBLIP	68.0	81.3	80.9
Idefics2	74.2	80.6	75.2
LLaVA-1.6	58.3	74.2	74.2