跳转至

CLIP-FTI: Fine-Grained Face Template Inversion via CLIP-Driven Attribute Conditioning

会议: AAAI 2026
arXiv: 2512.15433
代码: 无
领域: 人体理解
关键词: 人脸模板反演, CLIP, StyleGAN, 对抗攻击, 跨模型迁移

一句话总结

首次利用 CLIP 提取面部细粒度语义属性嵌入来辅助人脸模板反演(FTI),通过跨模态特征交互网络将泄露模板与属性嵌入融合并投影到 StyleGAN 潜空间,生成身份一致且属性细节更丰富的人脸图像,在识别准确率、属性相似度和跨模型攻击迁移性上均超越 SOTA。

研究背景与动机

人脸识别系统存储的人脸模板(face template,即深度特征嵌入)一旦泄露,攻击者可通过模板反演(Face Template Inversion, FTI)重建逼真人脸,同时危及用户隐私(暴露年龄、性别等软生物特征)和系统安全(冒充攻击)。现有方法主要依赖单一泄露模板映射到 StyleGAN 潜空间来重建人脸,但这种方式产生的图像在眼睛、鼻子、嘴巴等面部部件属性上表现出过度平滑(over-smoothed),缺乏细粒度细节,且跨模型攻击迁移性有限。

本文的核心 insight:利用 CLIP 的语义对齐能力为模板反演引入额外的属性语义信息。CLIP 能将图像和文本映射到共享语义空间,其中包含丰富的面部属性描述(眼型、鼻梁、嘴唇丰满度等)。通过将这些属性嵌入与泄露模板融合,可以补偿仅靠模板反演时丢失的细粒度信息。

方法详解

整体框架

CLIP-FTI 包含两个阶段:

训练阶段:假设可以访问人脸图像及其对应的识别模板(由代理 FR 模型提取),用于 (i) 提取 CLIP 语义属性嵌入,(ii) 学习两个映射模块——TAA 适配器和融合-潜码投影器。

攻击阶段(推理):仅需一个泄露模板 \(t\),TAA 适配器预测属性嵌入 \(\hat{s}\),与噪声向量 \(z\) 一起通过融合映射网络生成 StyleGAN 潜码 \(\hat{w} \in \mathcal{W}\),冻结的 StyleGAN3 生成器合成重建人脸 \(\hat{I} = G(\hat{w})\)

关键设计

1. 面部属性提示匹配(Facial Feature Attribute Prompt Matching)

将人脸划分为多个区域(眼睛、鼻子、嘴巴等),为每个区域预定义一组文本描述。通过 CLIP 文本编码器编码每个描述得到特征 \(v_i\),用图像编码器提取图像特征 \(I_{\text{feat}}\),计算余弦相似度选出每个区域最匹配的文本描述:

\[k_{\text{region}} = \arg\max_i \text{sim}(I_{\text{feat}}, v_i)\]

将各区域最佳文本特征拼接为完整语义表示 \(s\),捕获不同面部区域的属性信息。

2. 模板→属性对齐适配器(TAA Adapter)

轻量级 MLP(2 层全连接 + ReLU),从泄露模板 \(t\) 预测 CLIP 属性嵌入 \(\hat{s}\)。训练损失结合 MSE 和余弦对齐:

\[\mathcal{L}_{\text{sem}} = 0.7 \|s - \hat{s}\|_2^2 + 0.3(1 - \cos(s, \hat{s}))\]

Adam 优化 20 epochs。训练后攻击时只需 TAA,不需要原始图像。

3. 融合-潜码投影器(\(M_{\text{FLP}}\)

多分支前馈网络,三个输入分支:噪声 \(n\)(提供随机变化)、模板投影 \(t'\)、语义投影 \(s'\)(按区域划分为 token)。核心是多头注意力融合——以身份模板为 query、区域属性 token 为 key/value:

\[\tilde{s} = \text{MHA}(Q = t', K = [s'_1, \ldots, s'_R], V = [s'_1, \ldots, s'_R])\]

让网络自动学习哪些属性对身份恢复最重要。三分支拼接后经 MLP + LeakyReLU 得到 \(\hat{w} \in \mathcal{W}\)

损失函数 / 训练策略

潜分布对齐(WGAN):用 Wasserstein GAN 让生成潜码符合 StyleGAN 先验,判别器 \(C\) 为 3 层 MLP。

重建引导精炼\(\mathcal{L}_{\text{rec}} = \mathcal{L}_{\text{pix}} + \mathcal{L}_{\text{id}} + \mathcal{L}_{\text{attr}} + \mathcal{L}_{\text{lpips}}\)(权重均为 1.0)。

总目标:\(\mathcal{L}^{\text{total}} = \mathcal{L}^{\text{WGAN}} + \mathcal{L}_{\text{rec}}\)。Adam(lr=0.1)+ StepLR,单张 RTX 3090,StyleGAN3 生成 1024×1024。

实验关键数据

主实验

Table 2: Type-I/II TAR (%) — 身份识别验证

设置 (Fdb/Floss) 数据集 Otroshi et al. CLIP-FTI
ArcFace/ElasticFace LFW Type-I (FAR=0.1%) 95.01 99.37
ArcFace/ElasticFace LFW Type-II (FAR=0.1%) 46.55 81.74
ArcFace/ElasticFace CelebA-HQ (FAR=0.1%) 89.79 95.35
ArcFace/ElasticFace AgeDB (FAR=0.1%) 79.82 90.02

Table 3: 感知与属性质量

指标 Otroshi et al. CLIP-FTI
MS-SSIM ↑ (LFW) 0.2428 0.2527
LPIPS ↓ (LFW) 0.5534 0.5419
FAMSE ↓ (LFW) 0.0503 0.0451
FAMSE ↓ (AgeDB) 0.0473 0.0437

消融实验

架构组件消融 (LFW, FAR=0.1%)

变体 Type-I Type-II FAMSE ↓
完整 CLIP-FTI 99.37 81.74 0.0451
w/o AttrEmb 95.10 46.55 0.0503
w/o MHA 95.53 47.12 0.0501

损失项消融:移除 \(\mathcal{L}_{\text{lpips}}\) 后 Type-II 从 72.29 骤降至 44.53,影响最大。

关键发现

  • Type-II TAR 提升极为显著(+35 pp),CLIP 属性条件化大幅增强跨图像身份一致性
  • 跨模型迁移(Table 4):30 种跨架构场景中 28 种优于 baseline,轻量级模型上优势最大(HRNet 从 51.63→65.23)
  • CLIP 语义条件化不依赖代理与目标模型的架构相似性

亮点与洞察

  1. 首次引入模板之外的辅助信息:突破仅依赖泄露模板的范式,利用 CLIP 语义嵌入补充属性细节
  2. 注意力融合精巧:身份模板 query + 区域属性 key/value 的 MHA 设计,自动学习属性重要性
  3. 单次前向推理:不同于需要数百次迭代的搜索方法,高效且实用
  4. 安全启示:从攻击角度揭示人脸模板泄露的严重隐私风险

局限性 / 可改进方向

  1. TAA 预测质量受限于 CLIP 属性提示的覆盖范围,更细粒度提示可能进一步提升
  2. 依赖 StyleGAN3 生成能力上限,极端姿态或遮挡场景可能受限
  3. 目前仅在 1024×1024 验证,更高分辨率扩展性待探索
  4. 假设可直接注入重建图像,实际物理攻击场景更具挑战

相关工作与启发

  • Arc2Face:用 ArcFace 嵌入做扩散模型人脸合成,思路相关但目标不同
  • StyleCLIP / StyleGAN-NADA:CLIP 引导的 GAN 编辑,本文借鉴了 CLIP+GAN 范式
  • 启发:框架可扩展到其他生物特征模板安全性分析;CLIP 属性条件化的思路也可用于可控人脸生成

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将 CLIP 属性嵌入引入 FTI,开辟新攻击范式
  • 技术深度: ⭐⭐⭐⭐ — TAA + MHA 融合 + WGAN 对齐的完整技术栈
  • 实验充分度: ⭐⭐⭐⭐ — 3 数据集 × 5 FR 模型 × 30 跨架构场景
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,攻击场景形式化严谨