FaceCoT: Chain-of-Thought Reasoning in MLLMs for Face Anti-Spoofing¶

会议: CVPR 2026
arXiv: 2506.01783
代码: 即将开源 (数据集 FaceCoT 将公开)
领域: 多模态VLM / 人脸安全
关键词: 人脸反欺骗, CoT推理, VQA数据集, 渐进式学习, 强化学习标注

一句话总结¶

构建了首个面向人脸反欺骗（FAS）的大规模 VQA 数据集 FaceCoT（108 万样本，覆盖 14 种攻击类型），包含六层级 CoT 推理标注（从全局描述到局部推理到最终结论）；同时提出 CoT-Enhanced Progressive Learning (CEPL) 两阶段训练策略，在 11 个基准数据集上平均 AUC 提升 4.06%、HTER 降低 5.00%，超越所有 SOTA 方法。

背景与动机¶

现有 FAS 方法主要依赖单一视觉模态，泛化能力差且缺乏可解释性。MLLM 在图文理解和语义推理上的突破，为 FAS 提供了融合视觉和语言共同推理的新思路。然而关键瓶颈是缺乏高质量的视觉-语言多模态 FAS 数据集——现有 FAS 数据集仅提供图像 + 二分类标签，没有结构化的推理链信息。

核心问题¶

如何构建大规模、高质量的 FAS CoT VQA 数据集，并设计有效的训练策略让 MLLM 充分利用 CoT 数据提升检测性能和可解释性？

方法详解¶

整体框架¶

数据构建：FaceCoT-Gold100K（GPT-4o + 人工精修）+ FaceCoT-Silver982K（RL 增强的 caption 模型自动标注）= 108 万样本
训练策略：两阶段 CoT-Enhanced Progressive Learning (CEPL)

关键设计¶

六层级 CoT 标注结构: 模拟人类"全局到局部"推理路径：Caption（全局场景描述）→ Facial Description（面部特征描述）→ Facial Attributes（面部属性列举）→ Reasoning（基于多尺度信息的逻辑推理）→ Spoofing Description（欺骗特征和方法描述）→ Conclusion（最终判断 Yes/No）。用 XML 标签格式化，为模型提供清晰的推理结构。
数据构建流水线:
Gold100K：GPT-4o 自动标注 + 为不同攻击类型提供针对性 hint（如"拍摄海报构成欺骗"）+ 正则匹配检查 → 二轮标注失败的 581 个 hard case 由专家人工修正
Silver982K：在 Gold100K 上 SFT 训练 caption 模型，再用双奖励 RL（准确性奖励：结论匹配标签=1；格式奖励：输出符合模板=1）增强，标注准确率从 88% 提升至 99.6%
CEPL 两阶段训练:
Stage 1（Visual Enhancement Pre-training）：全参数 SFT on CoT 数据，让视觉编码器学习提取细粒度欺骗特征。直觉：语言引导的监督信号可以驱动视觉编码器关注微妙的伪造痕迹
Stage 2（Multi-task Joint Training）：继承 Stage 1 的视觉编码器，重置连接层和语言解码器为预训练权重 + LoRA 微调，联合训练 CoT 推理和二分类损失。解决了端到端训练中分类目标快速收敛导致推理任务欠优化的问题

损失函数 / 训练策略¶

输入分辨率 448×448，backbone 为 MiniCPMV-2.6-8B
AdamW 优化器，初始 lr=1e-6，weight decay=0.1
10 epochs，batch size 256，8× A100
评估：从第一个生成 token 提取 Yes/No logits 做 softmax 计算连续置信度分数

实验关键数据¶

1-to-11 跨域泛化（最挑战设置）¶

方法	平均 HTER ↓	平均 AUC ↑
I-FAS (AAAI 2025)	11.30%	93.71%
Ours-100K	7.65%	96.59%
Ours-All	6.30%	97.77%

在全部 11 个评测集上均取得最高性能。特别是 HKBU-MARs-V1+ 和 HiFiMask（含训练中未见的攻击类型），AUC 分别提升约 10% 和 14%。

Leave-one-out 协议¶

方法	平均 HTER ↓	平均 AUC ↑
I-FAS	1.33%	99.50%
Ours	1.06%	99.85%

消融实验要点¶

CEPL vs 单阶段：CEPL 降低 HTER 1.19%，提升 AUC 0.68%——渐进式学习有效解决任务干扰
CoT 数据 vs 纯标签：CoT 数据训练在 224 分辨率下降低 HTER 5.79%——低分辨率下收益更大
RL vs 纯 SFT caption 模型：RL 将 HTER 从 8.00% 降至 6.87%，证明 RL 不仅提升准确率还提升语义质量
零样本 vs CoT 微调：MiniCPMV 零样本 17.91% HTER → 微调后 6.30%，降低 11.61 个点

亮点¶

开创性数据集：108 万样本的 FAS VQA 数据集，是该领域首个，覆盖 14 种攻击类型
RL 增强标注：双奖励 RL 将 caption 模型标注准确率从 88% 提升到 99.6%，提供了低成本高质量数据扩展路径
可解释性：模型不仅给出判断还输出完整推理链，在安全敏感场景中至关重要
跨域泛化强：对训练中未见的 3D 面具攻击仍有强泛化能力，AUC 提升 10%+
两阶段训练设计合理：先让视觉编码器通过 CoT 学习细粒度特征，再联合训练分类，避免任务干扰

局限性 / 可改进方向¶

数据集源自 CelebA-Spoof 和 WFAS，人口统计学多样性取决于原始数据集
部分罕见攻击类型（如 adultdull 仅 165 样本）数据量极少
仅在 FAS 领域验证，CoT 构建方法是否可推广到其他安全检测任务有待验证

与相关工作的对比¶

vs I-FAS (AAAI 2025): I-FAS 也用 MLLM 做可解释 FAS 但仅提供简单描述；FaceCoT 提供六层级结构化推理链，信息密度更高
vs FLIP (CVPR 2023): FLIP 用 CLIP 做跨域 FAS；FaceCoT 用 MLLM + CoT 推理，泛化能力更强
vs LLaVA-CoT: LLaVA-CoT 是通用 CoT 推理框架，FaceCoT 是专门为 FAS 设计的 CoT 结构

启发与关联¶

FaceCoT 的数据构建流水线（GPT-4o + 人工精修 → RL 增强 caption 模型扩展）可以复用到其他安全检测任务的 VQA 数据集构建
两阶段训练策略（先视觉增强再联合训练）对其他需要细粒度视觉理解的 MLLM 任务有参考价值
RL 提升标注质量的方法值得在更多自动数据标注场景中尝试

评分¶

新颖性: ⭐⭐⭐⭐ 首个 FAS VQA 数据集 + CoT 渐进式学习，将 MLLM 推理引入传统 CV 安全任务
实验充分度: ⭐⭐⭐⭐⭐ 11 个跨域基准 + 两种协议 + 多种消融 + 跨 backbone 验证 + 细粒度攻击类型分析
写作质量: ⭐⭐⭐⭐ 整体清晰但信息量极大，补充材料内容丰富
价值: ⭐⭐⭐⭐⭐ 数据集和方法论对 FAS 和更广泛的安全 AI 领域都有重要推动作用