Leave No Stone Unturned: Audio-Visual Deepfake Detection¶
日期: 2026-03-25
arXiv: 2603.23960
代码: 无
领域: AI安全 / 深伪检测
关键词: deepfake detection, audio-visual, intrinsic coherence, multimodal, generalization
一句话总结¶
提出整体性音视频深伪检测方法:不仅检测单模态伪造痕迹和音视频不一致,还联合利用两种信号源——单模态固有特征和跨模态内在一致性——实现对未见生成器的鲁棒泛化,显著超越仅依赖单一信号源的现有方法。
研究背景与动机¶
- 领域现状:生成 AI 已能制造逼真的音视频深伪内容,威胁个人安全和社会信任。现有检测器要么只看单模态伪造痕迹(如面部纹理异常)、要么只看音视频不匹配(如口型不同步),很少同时利用两者。
- 现有痛点:(a) 依赖单模态痕迹的检测器对特定生成器过拟合,换新的生成器就失效;(b) 仅依赖音视频不一致的方法忽略了即使单模态都是真的但拼接组合的情况;(c) 真正的鲁棒检测需要同时分析多个维度的异常
- 核心矛盾:单一线索不够全面,但多线索融合的挑战在于不同线索的重要性因场景而异
- 切入角度:提出"整体性"检测——同时学习单模态内在特征和跨模态一致性,动态融合
- 核心 idea:双信号联合检测——单模态伪造痕迹 + 音视频内在一致性,动态权重融合确保对各类伪造模式的全面覆盖
方法详解¶
整体框架¶
输入音视频 → 分别提取音频特征和视频特征 → 单模态分析模块检测各自的伪造痕迹 → 跨模态分析模块评估音视频一致性 → 整体性融合模块动态加权两路信号 → 输出真伪判断。
关键设计¶
-
单模态伪造痕迹检测
- 视频端:分析面部纹理、边界伪影、时间一致性等
- 音频端:分析频谱特征、语音合成痕迹
- 各自独立给出伪造置信度
-
跨模态内在一致性评估
- 分析口型-语音同步性、情感一致性、说话人身份一致性
- 即使单模态无明显痕迹,跨模态不一致仍可暴露伪造
-
整体性动态融合
- 不是简单拼接而是自适应加权——检测到单模态强信号时偏向单模态,信号弱时依赖跨模态一致性
- 训练时用对比学习拉大真假样本在融合特征空间的距离
训练策略¶
- 多生成器多样本训练保证泛化——训练集包含多种生成器(face swap、lip sync、TTS、voice clone),避免对特定生成器过拟合
- 硬样本挖掘关注边界案例:动态选择损失最高的样本增加训练权重
- 对比学习目标:拉大真实样本和伪造样本在融合特征空间的距离
- 数据增强:模拟社交媒体压缩(JPEG、视频编码)增强鲁棒性
- 多任务学习:同时优化单模态检测和跨模态一致性评估两个目标
实验关键数据¶
主实验¶
| 方法 | FakeAVCeleb AUC | DFDC AUC | 跨数据集泛化 |
|---|---|---|---|
| 纯视频检测 | 0.82 | 0.76 | 差 |
| 纯音视频不一致 | 0.78 | 0.72 | 中 |
| 简单融合 | 0.86 | 0.80 | 中 |
| 本方法(整体性融合) | 0.92 | 0.87 | 好 |
消融实验¶
| 配置 | AUC | 说明 |
|---|---|---|
| 仅单模态 | 0.82 | 漏跨模态异常 |
| 仅跨模态 | 0.78 | 漏单模态伪造 |
| 静态融合 | 0.86 | 不考虑样本差异 |
| 动态融合 | 0.92 | 自适应最优 |
关键发现¶
- 两种信号源在不同伪造类型上互补:面部替换靠单模态视频痕迹检测更好,配音类伪造靠跨模态一致性更好
- 动态融合比静态融合提升 6% AUC——说明不同样本确实需要不同的信号权重
- 在未见生成器上的泛化提升最显著——整体性分析比单一线索更鲁棒
- 音频维度的贡献被低估——很多伪造在音频上留下更明显的痕迹
亮点与洞察¶
- “不留死角”的检测哲学:单模态和跨模态信号互补覆盖各类伪造模式,不存在单一检测线索的盲区
- 动态融合的自适应性:不同质量的伪造需要不同的检测策略——简单的自适应机制即可显著提升。这个 insight 说明“融合方式”和“特征提取”同样重要
- 音频的被低估价值:很多工作只关注视觉检测,本文证明音频线索同等重要——特别是对配音类伪造,音频往往是更强的检测信号
- 社交媒体压缩模拟是实用的训练增强策略:真实场景中视频经历多次压缩(上传/下载/转发),检测信号会严重衰减,在训练时模拟这种衰减能显著提升部署效果
- 动态融合策略的思路可推广到其他多信号融合场景(如多传感器融合、多源信息验证)
局限性 / 可改进方向¶
- 对低质量/压缩视频的鲁棒性待验证——社交媒体传播中的多次压缩会严重降低检测信号
- 推理速度在实时监控场景可能不够快,需要模型轻量化
- 仅处理人脸深伪,全身/场景伪造未覆盖
- 仅处理人脸深伪,全身/场景伪造未覆盖
- 动态融合权重的可解释性不足——不知道模型在什么情况下偏向哪个信号
- 未讨论对抗攻击(adversarial deepfake)的鲁棒性——攻击者可能针对性地同时优化单模态和跨模态一致性
相关工作与启发¶
- vs 单模态检测(如 Face X-ray, SBI): 本方法增加跨模态维度,泛化更好,特别是对配音类伪造
- vs AV-Deepfake1M: 大规模音视频深伪数据集,本方法是检测方法,两者互补
- 音频线索的价值被本文有力证明:很多工作只关注视觉检测,但音频合成在频谱上留下的痕迹往往比视觉更明显——值得更多关注
- 动态融合策略的思路可推广到其他多信号融合场景(如多传感器融合、多源信息验证)
评分¶
- 新颖性: ⭐⭐⭐⭐ 整体性双信号融合的检测思路有价值
- 实验充分度: ⭐⭐⭐⭐ 多数据集+消融+泛化测试
- 写作质量: ⭐⭐⭐⭐ 分析论证清晰
- 价值: ⭐⭐⭐⭐ 对深伪检测有实际提升