跳转至

FaceCoT: Chain-of-Thought Reasoning in MLLMs for Face Anti-Spoofing

会议: CVPR 2026
arXiv: 2506.01783
代码: 即将开源 (数据集 FaceCoT 将公开)
领域: 多模态VLM / 人脸安全
关键词: 人脸反欺骗, CoT推理, VQA数据集, 渐进式学习, 强化学习标注

一句话总结

构建了首个面向人脸反欺骗(FAS)的大规模 VQA 数据集 FaceCoT(108 万样本,覆盖 14 种攻击类型),包含六层级 CoT 推理标注(从全局描述到局部推理到最终结论);同时提出 CoT-Enhanced Progressive Learning (CEPL) 两阶段训练策略,在 11 个基准数据集上平均 AUC 提升 4.06%、HTER 降低 5.00%,超越所有 SOTA 方法。

背景与动机

现有 FAS 方法主要依赖单一视觉模态,泛化能力差且缺乏可解释性。MLLM 在图文理解和语义推理上的突破,为 FAS 提供了融合视觉和语言共同推理的新思路。然而关键瓶颈是缺乏高质量的视觉-语言多模态 FAS 数据集——现有 FAS 数据集仅提供图像 + 二分类标签,没有结构化的推理链信息。

核心问题

如何构建大规模、高质量的 FAS CoT VQA 数据集,并设计有效的训练策略让 MLLM 充分利用 CoT 数据提升检测性能和可解释性?

方法详解

整体框架

  1. 数据构建:FaceCoT-Gold100K(GPT-4o + 人工精修)+ FaceCoT-Silver982K(RL 增强的 caption 模型自动标注)= 108 万样本
  2. 训练策略:两阶段 CoT-Enhanced Progressive Learning (CEPL)

关键设计

  1. 六层级 CoT 标注结构: 模拟人类"全局到局部"推理路径:Caption(全局场景描述)→ Facial Description(面部特征描述)→ Facial Attributes(面部属性列举)→ Reasoning(基于多尺度信息的逻辑推理)→ Spoofing Description(欺骗特征和方法描述)→ Conclusion(最终判断 Yes/No)。用 XML 标签格式化,为模型提供清晰的推理结构。

  2. 数据构建流水线:

  3. Gold100K:GPT-4o 自动标注 + 为不同攻击类型提供针对性 hint(如"拍摄海报构成欺骗")+ 正则匹配检查 → 二轮标注失败的 581 个 hard case 由专家人工修正
  4. Silver982K:在 Gold100K 上 SFT 训练 caption 模型,再用双奖励 RL(准确性奖励:结论匹配标签=1;格式奖励:输出符合模板=1)增强,标注准确率从 88% 提升至 99.6%

  5. CEPL 两阶段训练:

  6. Stage 1(Visual Enhancement Pre-training):全参数 SFT on CoT 数据,让视觉编码器学习提取细粒度欺骗特征。直觉:语言引导的监督信号可以驱动视觉编码器关注微妙的伪造痕迹
  7. Stage 2(Multi-task Joint Training):继承 Stage 1 的视觉编码器,重置连接层和语言解码器为预训练权重 + LoRA 微调,联合训练 CoT 推理和二分类损失。解决了端到端训练中分类目标快速收敛导致推理任务欠优化的问题

损失函数 / 训练策略

  • 输入分辨率 448×448,backbone 为 MiniCPMV-2.6-8B
  • AdamW 优化器,初始 lr=1e-6,weight decay=0.1
  • 10 epochs,batch size 256,8× A100
  • 评估:从第一个生成 token 提取 Yes/No logits 做 softmax 计算连续置信度分数

实验关键数据

1-to-11 跨域泛化(最挑战设置)

方法 平均 HTER ↓ 平均 AUC ↑
I-FAS (AAAI 2025) 11.30% 93.71%
Ours-100K 7.65% 96.59%
Ours-All 6.30% 97.77%

在全部 11 个评测集上均取得最高性能。特别是 HKBU-MARs-V1+ 和 HiFiMask(含训练中未见的攻击类型),AUC 分别提升约 10% 和 14%。

Leave-one-out 协议

方法 平均 HTER ↓ 平均 AUC ↑
I-FAS 1.33% 99.50%
Ours 1.06% 99.85%

消融实验要点

  • CEPL vs 单阶段:CEPL 降低 HTER 1.19%,提升 AUC 0.68%——渐进式学习有效解决任务干扰
  • CoT 数据 vs 纯标签:CoT 数据训练在 224 分辨率下降低 HTER 5.79%——低分辨率下收益更大
  • RL vs 纯 SFT caption 模型:RL 将 HTER 从 8.00% 降至 6.87%,证明 RL 不仅提升准确率还提升语义质量
  • 零样本 vs CoT 微调:MiniCPMV 零样本 17.91% HTER → 微调后 6.30%,降低 11.61 个点

亮点

  • 开创性数据集:108 万样本的 FAS VQA 数据集,是该领域首个,覆盖 14 种攻击类型
  • RL 增强标注:双奖励 RL 将 caption 模型标注准确率从 88% 提升到 99.6%,提供了低成本高质量数据扩展路径
  • 可解释性:模型不仅给出判断还输出完整推理链,在安全敏感场景中至关重要
  • 跨域泛化强:对训练中未见的 3D 面具攻击仍有强泛化能力,AUC 提升 10%+
  • 两阶段训练设计合理:先让视觉编码器通过 CoT 学习细粒度特征,再联合训练分类,避免任务干扰

局限性 / 可改进方向

  • 数据集源自 CelebA-Spoof 和 WFAS,人口统计学多样性取决于原始数据集
  • 部分罕见攻击类型(如 adultdull 仅 165 样本)数据量极少
  • 仅在 FAS 领域验证,CoT 构建方法是否可推广到其他安全检测任务有待验证

与相关工作的对比

  • vs I-FAS (AAAI 2025): I-FAS 也用 MLLM 做可解释 FAS 但仅提供简单描述;FaceCoT 提供六层级结构化推理链,信息密度更高
  • vs FLIP (CVPR 2023): FLIP 用 CLIP 做跨域 FAS;FaceCoT 用 MLLM + CoT 推理,泛化能力更强
  • vs LLaVA-CoT: LLaVA-CoT 是通用 CoT 推理框架,FaceCoT 是专门为 FAS 设计的 CoT 结构

启发与关联

  • FaceCoT 的数据构建流水线(GPT-4o + 人工精修 → RL 增强 caption 模型扩展)可以复用到其他安全检测任务的 VQA 数据集构建
  • 两阶段训练策略(先视觉增强再联合训练)对其他需要细粒度视觉理解的 MLLM 任务有参考价值
  • RL 提升标注质量的方法值得在更多自动数据标注场景中尝试

评分

  • 新颖性: ⭐⭐⭐⭐ 首个 FAS VQA 数据集 + CoT 渐进式学习,将 MLLM 推理引入传统 CV 安全任务
  • 实验充分度: ⭐⭐⭐⭐⭐ 11 个跨域基准 + 两种协议 + 多种消融 + 跨 backbone 验证 + 细粒度攻击类型分析
  • 写作质量: ⭐⭐⭐⭐ 整体清晰但信息量极大,补充材料内容丰富
  • 价值: ⭐⭐⭐⭐⭐ 数据集和方法论对 FAS 和更广泛的安全 AI 领域都有重要推动作用