IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbations¶
会议: CVPR 2026 arXiv: 2602.18831 代码: GitHub(基于 IDiff-Face) 领域: 图像生成 / 人脸识别 关键词: 合成人脸, 身份扰动, 角度采样, 扩散模型, 人脸识别
一句话总结¶
提出 IDperturb,一种在单位超球面上对身份嵌入进行角度扰动的几何采样策略,无需修改生成模型即可显著增强合成人脸数据集的类内多样性,提升下游人脸识别性能。
研究背景与动机¶
合成人脸数据已成为训练人脸识别 (FR) 系统的隐私友好替代方案。基于身份条件的扩散模型(如 IDiff-Face、DCFace)能生成逼真且身份一致的人脸图像,但普遍存在类内变化不足的问题——同一身份生成的图像在年龄、表情、姿态等方面过于相似,导致训练出的 FR 模型泛化能力不足。
现有方法通过引入额外标签条件(ID3)、学习风格模块(DCFace)或迭代优化嵌入(HyperFace)来增加多样性,但这些方法要么需要修改模型架构,要么需要辅助标签,要么计算成本较高。本文的核心观察是:身份嵌入空间的几何结构本身就可以被利用来引入多样性,无需对生成模型做任何修改。
方法详解¶
整体框架¶
IDperturb 是一种纯几何驱动的采样策略,工作在预训练身份条件扩散模型的嵌入空间中。给定参考身份嵌入 \(\mathbf{v}\),在其周围的约束角度区域(\(d\) 维锥体)内生成一组扰动嵌入 \(\{\tilde{\mathbf{v}}_k\}_{k=1}^K\),每个扰动嵌入作为条件输入生成一张人脸图像。
关键设计¶
- 角度采样 (Angular Sampling):核心思路是在单位超球面上对身份嵌入做受控角度偏移。首先均匀采样目标余弦相似度 \(s \sim \mathcal{U}[\mathbf{lb}, 1]\),对应角度 \(\theta = \cos^{-1}(s)\);然后采样随机噪声 \(\mathbf{n} \sim \mathcal{N}(0, \mathbf{I})\) 并投影到 \(\mathbf{v}\) 的正交超平面上得到单位向量 \(\mathbf{u}\);最终构造扰动嵌入:
该构造保证 \(\|\tilde{\mathbf{v}}\| = 1\)(范数保持)且 \(\langle \tilde{\mathbf{v}}, \mathbf{v} \rangle = \cos(\theta) = s\)(精确角度控制)。设计动机是利用 FR 嵌入空间中余弦相似度与身份语义的对应关系,在保持身份的前提下引入可控的变化。
- 下界约束 (Lower Bound Constraint):参数 \(\mathbf{lb}\) 定义了允许的最大角度偏移。更小的 \(\mathbf{lb}\) 带来更大变化但可能损失身份一致性。为避免身份重叠,动态调整下界:
即确保扰动后的嵌入始终比任何其他身份更接近原始身份(角度取半),这是一个优雅的几何保证。
- 与预训练扩散模型的集成:IDperturb 与预训练的 LDM(如 IDiff-Face)无缝配合。对每个身份生成 \(K\) 个扰动嵌入,每个嵌入配合不同的初始噪声 \(\mathbf{z}_T\) 通过反向扩散过程生成图像。使用 DDIM 50 步采样,配合 Classifier-Free Guidance (CFG)。整个扰动过程额外开销极小(M3 CPU 上每身份 50 次扰动仅需 0.01 秒)。
损失函数 / 训练策略¶
IDperturb 本身不涉及训练——它是一种推理时采样策略。下游 FR 训练使用 ResNet50 + CosFace loss(margin=0.35, scale=64),SGD 优化器训练 34 epochs,初始学习率 0.1。
实验关键数据¶
主实验¶
在 IDiff-Face (C-WF) 基线上的 FR 验证准确率(%):
| 数据集 | 指标 | IDperturb (lb=0.6) | Baseline (无扰动) | 提升 |
|---|---|---|---|---|
| LFW | Acc | 99.40 | 98.75 | +0.65 |
| AgeDB-30 | Acc | 93.20 | 88.85 | +4.35 |
| CFP-FP | Acc | 93.61 | 91.61 | +2.00 |
| CA-LFW | Acc | 93.50 | 90.90 | +2.60 |
| CP-LFW | Acc | 88.37 | 86.15 | +2.22 |
| 平均 | Acc | 93.62 | 91.25 | +2.37 |
与 SOTA 对比:在相同设置下(DGM 训练于 C-WF),IDperturb 以 93.62% 平均准确率超越所有竞争方法。
消融实验¶
| 配置 | 平均准确率 | 说明 |
|---|---|---|
| lb=0.9 | 92.68 | 扰动较小,提升有限 |
| lb=0.8 | 93.31 | 适度扰动 |
| lb=0.7 | 93.44 | 接近最优 |
| lb=0.6 | 93.62 | 最优平衡点 |
| lb=0.5 | 93.56 | 开始略微下降 |
| lb=0.4 | 93.36 | 身份一致性下降 |
| Baseline | 91.25 | 无扰动 |
CFG 强度消融(lb=0.6):\(\omega=2\) 达到最优(93.63%),过大的 \(\omega\) 会限制多样性。
关键发现¶
- 降低 lb 单调增加类内多样性(\(D_{intra}\)),但降低身份一致性(\(C_{intra}\)),最优平衡点在 lb=0.6
- lb=0.6 时,年龄熵、表情熵、头部姿态 STD 均接近真实数据集 C-WF
- 扰动仅作用于嵌入空间,但隐式促进了姿态、年龄、表情等多方面的多样化
亮点与洞察¶
- 极致的简洁性:方法仅是一个几何操作——在超球面上做角度采样,无需修改模型、无需额外标签、无需训练,计算开销几乎为零
- 数学优雅:利用超球面几何保证范数不变和角度精确控制,身份重叠避免的角度取半策略也有严格几何解释
- 通用性强:可即插即用于任何身份条件扩散模型,已在 FFHQ 和 C-WF 两个基线上验证有效
局限性 / 可改进方向¶
- lb 较低时(如 0.4),部分样本身份一致性明显下降,EER 显著升高
- 目前仅在 IDiff-Face 上验证,未测试 Arc2Face 等更强基线
- 角度采样方向是均匀随机的,未利用嵌入空间中不同方向对应不同属性变化的语义结构
- 仅针对 2D 人脸合成场景,扩展到 3D 人脸或通用图像生成需要验证
相关工作与启发¶
- IDiff-Face / UIFace:本文的基线扩散模型,IDperturb 在其上即插即用地提升性能
- DCFace:通过学习风格嵌入增加多样性,更复杂但可能捕获更丰富的变化
- HyperFace:迭代优化嵌入空间采样,计算成本更高
- 启发:超球面嵌入空间的几何结构可以被更深入地利用——例如沿特定方向(对应年龄、姿态等)做非均匀采样,或将这种思路扩展到其他条件生成任务(如风格迁移、文本条件生成)
评分¶
- 新颖性: ⭐⭐⭐⭐ 从纯几何视角解决多样性问题,思路简洁而有效
- 实验充分度: ⭐⭐⭐⭐ 多基线、多benchmark、多角度消融(多样性/一致性/属性/可分性),非常全面
- 写作质量: ⭐⭐⭐⭐ 数学推导清晰,图示直观,实验组织有条理
- 价值: ⭐⭐⭐⭐ 零成本即插即用提升合成人脸数据质量,对隐私保护场景的 FR 训练有直接实用价值