AugGen: Synthetic Augmentation using Diffusion Models Can Improve Recognition¶

会议: NeurIPS 2025
arXiv: 2503.11544
代码: https://parsa-ra.github.io/auggen/
领域: 人脸识别 / 合成数据增强
关键词: synthetic augmentation, diffusion model, face recognition, class mixing, condition vector interpolation, self-contained

一句话总结¶

提出AugGen——一种自包含（self-contained）的合成数据增强方法：利用扩散模型的条件向量插值（\(c^* = \alpha c_i + \beta c_j\)）实现类间混合生成，无需外部数据或模型即可为人脸识别提供1-12%的性能提升，等效于1.7倍真实数据量，IR50+AugGen甚至超越IR101 real-only。

背景与动机¶

合成数据增强的核心矛盾：扩散模型能生成高质量图像，但合成数据与真实数据的分布差异可能引入偏差。在人脸识别领域，这个问题尤为突出——（1）隐私法规限制真实人脸数据的收集和使用；（2）类内多样性（同一人的不同角度/光照/表情）难以通过简单prompt控制；（3）先前工作结论不一，部分发现合成数据反而降低性能。AugGen的关键突破在于"自包含"——仅使用训练集本身的信息生成增强数据，不依赖外部预训练模型或额外数据源。

核心问题¶

如何构造一种不依赖外部数据/模型的合成增强策略，使扩散模型生成的合成人脸数据能可靠地提升识别性能？

方法详解¶

整体框架¶

AugGen的流程：（1）在训练集上微调条件扩散模型，获得每个身份的条件向量 \(c_i\)；（2）通过类间混合插值 \(c^* = \alpha c_i + \beta c_j\) 生成"介于两个身份之间"的合成样本；（3）网格搜索最优 \(\alpha, \beta\) 参数；（4）将合成样本加入训练集进行增强训练。整个流程自包含，不引入外部知识。

关键设计¶

条件向量插值（Class Mixing）: 核心创新——不简单地为每个类生成更多同类样本（会引入模式坍缩），而是通过 \(c^* = \alpha c_i + \beta c_j\) 混合两个类的条件向量。这产生的合成样本既不完全属于类 \(i\) 也不完全属于类 \(j\)，提供了"类间空间"的训练信号，增强决策边界附近的判别能力。
\(\alpha, \beta\) 网格搜索: 通过dissimilarity+similarity双指标评估不同 \(\alpha, \beta\) 组合的质量——dissimilarity确保合成样本与源类有足够差异（避免冗余），similarity确保不偏离太远（保持语义相关性）。最优参数在这两个指标的权衡处。
自包含设计: 扩散模型在训练集上微调，条件向量从训练数据提取，融合参数在训练数据上搜索——全流程不需要外部预训练模型（如CLIP、DALL-E）或额外数据集。

损失函数 / 训练策略¶

扩散模型使用标准DDPM损失微调。人脸识别模型使用ArcFace损失。合成数据与真实数据混合后统一训练，不对合成样本做特殊加权。

实验关键数据¶

设置	基准数	提升幅度	等效真实数据	备注
IR50 + AugGen	8个FR基准	1-12%	1.7×	远超传统增强
IR50 + AugGen	-	-	-	超越IR101 real-only
IR101 + AugGen	-	进一步提升	-	大模型也受益
无外部数据/模型	-	-	-	自包含性验证

消融实验要点¶

类间混合 vs 类内生成：类间混合（\(c^* = \alpha c_i + \beta c_j\)）显著优于简单复制类内样本——后者几乎无提升
\(\alpha, \beta\) 敏感性：存在明确的最优区间，过大的混合程度（\(\alpha + \beta\) 过大）生成无意义样本，过小则冗余
dissimilarity+similarity双指标的必要性：单用任一指标选参数性能下降
合成数据量的边际效益：存在饱和点，过多合成数据不再提升

亮点¶

自包含优于依赖外部模型: 证明了不需要CLIP/DALL-E等大模型也能有效生成增强数据，降低了工程门槛
"等效1.7×真实数据": 这个量化结论极具实用价值——当真实数据收集受限时，合成增强提供了可行替代
IR50超越IR101: 小模型+合成增强 > 大模型+纯真实数据——模型容量和数据质量的有趣权衡

局限性 / 可改进方向¶

仅在人脸识别上验证，是否适用于细粒度分类（如车辆ReID、动物识别）需要进一步实验
条件向量插值的几何特性依赖扩散模型的潜空间结构——不同模型架构可能表现不同
网格搜索 \(\alpha, \beta\) 的计算成本在类别数很大时可能较高
类间混合可能生成伦理敏感的合成人脸——隐私和公平性考量未深入讨论

与相关工作的对比¶

与SynFace、DigiFace等合成人脸数据方法相比，AugGen不需要外部3D模型或大规模预训练生成器。与标准数据增强（翻转、裁剪、颜色抖动）相比，AugGen在语义层面增强——生成全新的人脸变体，而非像素级变换。与DCFace等最新合成方法相比，AugGen的自包含特性使其更易于在隐私受限场景下部署。

启发与关联¶

条件向量插值的思路可推广到其他条件生成任务——如风格混合、跨域生成
"自包含增强"的设计哲学值得推崇——减少对外部大模型的依赖，使方法更通用
在隐私法规日益严格的背景下，合成数据增强从"可选优化"正在变为"必要基础设施"

评分¶

新颖性: ⭐⭐⭐⭐ 条件向量插值的类间混合设计新颖，自包含约束有价值
实验充分度: ⭐⭐⭐⭐⭐ 8个FR基准，消融全面，量化了等效真实数据量
写作质量: ⭐⭐⭐⭐ 方法描述清晰，实验结论明确
价值: ⭐⭐⭐⭐ 为隐私受限场景下的人脸识别训练提供了实用方案