Leave No Stone Unturned: Audio-Visual Deepfake Detection¶

日期: 2026-03-25
arXiv: 2603.23960
代码: 无
领域: AI安全 / 深伪检测
关键词: deepfake detection, audio-visual, intrinsic coherence, multimodal, generalization

一句话总结¶

提出整体性音视频深伪检测方法：不仅检测单模态伪造痕迹和音视频不一致，还联合利用两种信号源——单模态固有特征和跨模态内在一致性——实现对未见生成器的鲁棒泛化，显著超越仅依赖单一信号源的现有方法。

领域现状：生成 AI 已能制造逼真的音视频深伪内容，威胁个人安全和社会信任。现有检测器要么只看单模态伪造痕迹（如面部纹理异常）、要么只看音视频不匹配（如口型不同步），很少同时利用两者。
现有痛点：(a) 依赖单模态痕迹的检测器对特定生成器过拟合，换新的生成器就失效；(b) 仅依赖音视频不一致的方法忽略了即使单模态都是真的但拼接组合的情况；(c) 真正的鲁棒检测需要同时分析多个维度的异常
核心矛盾：单一线索不够全面，但多线索融合的挑战在于不同线索的重要性因场景而异
切入角度：提出"整体性"检测——同时学习单模态内在特征和跨模态一致性，动态融合
核心 idea：双信号联合检测——单模态伪造痕迹 + 音视频内在一致性，动态权重融合确保对各类伪造模式的全面覆盖

输入音视频 → 分别提取音频特征和视频特征 → 单模态分析模块检测各自的伪造痕迹 → 跨模态分析模块评估音视频一致性 → 整体性融合模块动态加权两路信号 → 输出真伪判断。

单模态伪造痕迹检测
- 视频端：分析面部纹理、边界伪影、时间一致性等
- 音频端：分析频谱特征、语音合成痕迹
- 各自独立给出伪造置信度
跨模态内在一致性评估
- 分析口型-语音同步性、情感一致性、说话人身份一致性
- 即使单模态无明显痕迹，跨模态不一致仍可暴露伪造
整体性动态融合
- 不是简单拼接而是自适应加权——检测到单模态强信号时偏向单模态，信号弱时依赖跨模态一致性
- 训练时用对比学习拉大真假样本在融合特征空间的距离

方法	FakeAVCeleb AUC	DFDC AUC	跨数据集泛化
纯视频检测	0.82	0.76	差
纯音视频不一致	0.78	0.72	中
简单融合	0.86	0.80	中
本方法（整体性融合）	0.92	0.87	好