CLIP-FTI: Fine-Grained Face Template Inversion via CLIP-Driven Attribute Conditioning¶

会议: AAAI 2026
arXiv: 2512.15433
代码: 无
领域: 人体理解
关键词: 人脸模板反演, CLIP, StyleGAN, 对抗攻击, 跨模型迁移

一句话总结¶

首次利用 CLIP 提取面部细粒度语义属性嵌入来辅助人脸模板反演（FTI），通过跨模态特征交互网络将泄露模板与属性嵌入融合并投影到 StyleGAN 潜空间，生成身份一致且属性细节更丰富的人脸图像，在识别准确率、属性相似度和跨模型攻击迁移性上均超越 SOTA。

研究背景与动机¶

人脸识别系统存储的人脸模板（face template，即深度特征嵌入）一旦泄露，攻击者可通过模板反演（Face Template Inversion, FTI）重建逼真人脸，同时危及用户隐私（暴露年龄、性别等软生物特征）和系统安全（冒充攻击）。现有方法主要依赖单一泄露模板映射到 StyleGAN 潜空间来重建人脸，但这种方式产生的图像在眼睛、鼻子、嘴巴等面部部件属性上表现出过度平滑（over-smoothed），缺乏细粒度细节，且跨模型攻击迁移性有限。

本文的核心 insight：利用 CLIP 的语义对齐能力为模板反演引入额外的属性语义信息。CLIP 能将图像和文本映射到共享语义空间，其中包含丰富的面部属性描述（眼型、鼻梁、嘴唇丰满度等）。通过将这些属性嵌入与泄露模板融合，可以补偿仅靠模板反演时丢失的细粒度信息。

方法详解¶

整体框架¶

CLIP-FTI 包含两个阶段：

训练阶段：假设可以访问人脸图像及其对应的识别模板（由代理 FR 模型提取），用于 (i) 提取 CLIP 语义属性嵌入，(ii) 学习两个映射模块——TAA 适配器和融合-潜码投影器。

攻击阶段（推理）：仅需一个泄露模板 \(t\)，TAA 适配器预测属性嵌入 \(\hat{s}\)，与噪声向量 \(z\) 一起通过融合映射网络生成 StyleGAN 潜码 \(\hat{w} \in \mathcal{W}\)，冻结的 StyleGAN3 生成器合成重建人脸 \(\hat{I} = G(\hat{w})\)。

关键设计¶

1. 面部属性提示匹配（Facial Feature Attribute Prompt Matching）

将人脸划分为多个区域（眼睛、鼻子、嘴巴等），为每个区域预定义一组文本描述。通过 CLIP 文本编码器编码每个描述得到特征 \(v_i\)，用图像编码器提取图像特征 \(I_{\text{feat}}\)，计算余弦相似度选出每个区域最匹配的文本描述：

\[k_{\text{region}} = \arg\max_i \text{sim}(I_{\text{feat}}, v_i)\]

将各区域最佳文本特征拼接为完整语义表示 \(s\)，捕获不同面部区域的属性信息。

2. 模板→属性对齐适配器（TAA Adapter）

轻量级 MLP（2 层全连接 + ReLU），从泄露模板 \(t\) 预测 CLIP 属性嵌入 \(\hat{s}\)。训练损失结合 MSE 和余弦对齐：

\[\mathcal{L}_{\text{sem}} = 0.7 \|s - \hat{s}\|_2^2 + 0.3(1 - \cos(s, \hat{s}))\]

Adam 优化 20 epochs。训练后攻击时只需 TAA，不需要原始图像。

3. 融合-潜码投影器（\(M_{\text{FLP}}\)）

多分支前馈网络，三个输入分支：噪声 \(n\)（提供随机变化）、模板投影 \(t'\)、语义投影 \(s'\)（按区域划分为 token）。核心是多头注意力融合——以身份模板为 query、区域属性 token 为 key/value：

\[\tilde{s} = \text{MHA}(Q = t', K = [s'_1, \ldots, s'_R], V = [s'_1, \ldots, s'_R])\]

让网络自动学习哪些属性对身份恢复最重要。三分支拼接后经 MLP + LeakyReLU 得到 \(\hat{w} \in \mathcal{W}\)。

损失函数 / 训练策略¶

潜分布对齐（WGAN）：用 Wasserstein GAN 让生成潜码符合 StyleGAN 先验，判别器 \(C\) 为 3 层 MLP。

重建引导精炼：\(\mathcal{L}_{\text{rec}} = \mathcal{L}_{\text{pix}} + \mathcal{L}_{\text{id}} + \mathcal{L}_{\text{attr}} + \mathcal{L}_{\text{lpips}}\)（权重均为 1.0）。

总目标：\(\mathcal{L}^{\text{total}} = \mathcal{L}^{\text{WGAN}} + \mathcal{L}_{\text{rec}}\)。Adam（lr=0.1）+ StepLR，单张 RTX 3090，StyleGAN3 生成 1024×1024。

实验关键数据¶

主实验¶

Table 2: Type-I/II TAR (%) — 身份识别验证

设置 (Fdb/Floss)	数据集	Otroshi et al.	CLIP-FTI
ArcFace/ElasticFace	LFW Type-I (FAR=0.1%)	95.01	99.37
ArcFace/ElasticFace	LFW Type-II (FAR=0.1%)	46.55	81.74
ArcFace/ElasticFace	CelebA-HQ (FAR=0.1%)	89.79	95.35
ArcFace/ElasticFace	AgeDB (FAR=0.1%)	79.82	90.02

Table 3: 感知与属性质量

指标	Otroshi et al.	CLIP-FTI
MS-SSIM ↑ (LFW)	0.2428	0.2527
LPIPS ↓ (LFW)	0.5534	0.5419
FAMSE ↓ (LFW)	0.0503	0.0451
FAMSE ↓ (AgeDB)	0.0473	0.0437

消融实验¶

架构组件消融 (LFW, FAR=0.1%)

变体	Type-I	Type-II	FAMSE ↓
完整 CLIP-FTI	99.37	81.74	0.0451
w/o AttrEmb	95.10	46.55	0.0503
w/o MHA	95.53	47.12	0.0501

损失项消融：移除 \(\mathcal{L}_{\text{lpips}}\) 后 Type-II 从 72.29 骤降至 44.53，影响最大。

关键发现¶

Type-II TAR 提升极为显著（+35 pp），CLIP 属性条件化大幅增强跨图像身份一致性
跨模型迁移（Table 4）：30 种跨架构场景中 28 种优于 baseline，轻量级模型上优势最大（HRNet 从 51.63→65.23）
CLIP 语义条件化不依赖代理与目标模型的架构相似性

亮点与洞察¶

首次引入模板之外的辅助信息：突破仅依赖泄露模板的范式，利用 CLIP 语义嵌入补充属性细节
注意力融合精巧：身份模板 query + 区域属性 key/value 的 MHA 设计，自动学习属性重要性
单次前向推理：不同于需要数百次迭代的搜索方法，高效且实用
安全启示：从攻击角度揭示人脸模板泄露的严重隐私风险

局限性 / 可改进方向¶

TAA 预测质量受限于 CLIP 属性提示的覆盖范围，更细粒度提示可能进一步提升
依赖 StyleGAN3 生成能力上限，极端姿态或遮挡场景可能受限
目前仅在 1024×1024 验证，更高分辨率扩展性待探索
假设可直接注入重建图像，实际物理攻击场景更具挑战

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将 CLIP 属性嵌入引入 FTI，开辟新攻击范式
技术深度: ⭐⭐⭐⭐ — TAA + MHA 融合 + WGAN 对齐的完整技术栈
实验充分度: ⭐⭐⭐⭐ — 3 数据集 × 5 FR 模型 × 30 跨架构场景
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，攻击场景形式化严谨