AugGen: Synthetic Augmentation using Diffusion Models Can Improve Recognition¶
会议: NeurIPS 2025
arXiv: 2503.11544
代码: https://parsa-ra.github.io/auggen/
领域: 人脸识别 / 合成数据增强
关键词: synthetic augmentation, diffusion model, face recognition, class mixing, condition vector interpolation, self-contained
一句话总结¶
提出AugGen——一种自包含(self-contained)的合成数据增强方法:利用扩散模型的条件向量插值(\(c^* = \alpha c_i + \beta c_j\))实现类间混合生成,无需外部数据或模型即可为人脸识别提供1-12%的性能提升,等效于1.7倍真实数据量,IR50+AugGen甚至超越IR101 real-only。
背景与动机¶
合成数据增强的核心矛盾:扩散模型能生成高质量图像,但合成数据与真实数据的分布差异可能引入偏差。在人脸识别领域,这个问题尤为突出——(1)隐私法规限制真实人脸数据的收集和使用;(2)类内多样性(同一人的不同角度/光照/表情)难以通过简单prompt控制;(3)先前工作结论不一,部分发现合成数据反而降低性能。AugGen的关键突破在于"自包含"——仅使用训练集本身的信息生成增强数据,不依赖外部预训练模型或额外数据源。
核心问题¶
如何构造一种不依赖外部数据/模型的合成增强策略,使扩散模型生成的合成人脸数据能可靠地提升识别性能?
方法详解¶
整体框架¶
AugGen的流程:(1)在训练集上微调条件扩散模型,获得每个身份的条件向量 \(c_i\);(2)通过类间混合插值 \(c^* = \alpha c_i + \beta c_j\) 生成"介于两个身份之间"的合成样本;(3)网格搜索最优 \(\alpha, \beta\) 参数;(4)将合成样本加入训练集进行增强训练。整个流程自包含,不引入外部知识。
关键设计¶
- 条件向量插值(Class Mixing): 核心创新——不简单地为每个类生成更多同类样本(会引入模式坍缩),而是通过 \(c^* = \alpha c_i + \beta c_j\) 混合两个类的条件向量。这产生的合成样本既不完全属于类 \(i\) 也不完全属于类 \(j\),提供了"类间空间"的训练信号,增强决策边界附近的判别能力。
- \(\alpha, \beta\) 网格搜索: 通过dissimilarity+similarity双指标评估不同 \(\alpha, \beta\) 组合的质量——dissimilarity确保合成样本与源类有足够差异(避免冗余),similarity确保不偏离太远(保持语义相关性)。最优参数在这两个指标的权衡处。
- 自包含设计: 扩散模型在训练集上微调,条件向量从训练数据提取,融合参数在训练数据上搜索——全流程不需要外部预训练模型(如CLIP、DALL-E)或额外数据集。
损失函数 / 训练策略¶
扩散模型使用标准DDPM损失微调。人脸识别模型使用ArcFace损失。合成数据与真实数据混合后统一训练,不对合成样本做特殊加权。
实验关键数据¶
| 设置 | 基准数 | 提升幅度 | 等效真实数据 | 备注 |
|---|---|---|---|---|
| IR50 + AugGen | 8个FR基准 | 1-12% | 1.7× | 远超传统增强 |
| IR50 + AugGen | - | - | - | 超越IR101 real-only |
| IR101 + AugGen | - | 进一步提升 | - | 大模型也受益 |
| 无外部数据/模型 | - | - | - | 自包含性验证 |
消融实验要点¶
- 类间混合 vs 类内生成:类间混合(\(c^* = \alpha c_i + \beta c_j\))显著优于简单复制类内样本——后者几乎无提升
- \(\alpha, \beta\) 敏感性:存在明确的最优区间,过大的混合程度(\(\alpha + \beta\) 过大)生成无意义样本,过小则冗余
- dissimilarity+similarity双指标的必要性:单用任一指标选参数性能下降
- 合成数据量的边际效益:存在饱和点,过多合成数据不再提升
亮点¶
- 自包含优于依赖外部模型: 证明了不需要CLIP/DALL-E等大模型也能有效生成增强数据,降低了工程门槛
- "等效1.7×真实数据": 这个量化结论极具实用价值——当真实数据收集受限时,合成增强提供了可行替代
- IR50超越IR101: 小模型+合成增强 > 大模型+纯真实数据——模型容量和数据质量的有趣权衡
局限性 / 可改进方向¶
- 仅在人脸识别上验证,是否适用于细粒度分类(如车辆ReID、动物识别)需要进一步实验
- 条件向量插值的几何特性依赖扩散模型的潜空间结构——不同模型架构可能表现不同
- 网格搜索 \(\alpha, \beta\) 的计算成本在类别数很大时可能较高
- 类间混合可能生成伦理敏感的合成人脸——隐私和公平性考量未深入讨论
与相关工作的对比¶
与SynFace、DigiFace等合成人脸数据方法相比,AugGen不需要外部3D模型或大规模预训练生成器。与标准数据增强(翻转、裁剪、颜色抖动)相比,AugGen在语义层面增强——生成全新的人脸变体,而非像素级变换。与DCFace等最新合成方法相比,AugGen的自包含特性使其更易于在隐私受限场景下部署。
启发与关联¶
- 条件向量插值的思路可推广到其他条件生成任务——如风格混合、跨域生成
- "自包含增强"的设计哲学值得推崇——减少对外部大模型的依赖,使方法更通用
- 在隐私法规日益严格的背景下,合成数据增强从"可选优化"正在变为"必要基础设施"
评分¶
- 新颖性: ⭐⭐⭐⭐ 条件向量插值的类间混合设计新颖,自包含约束有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 8个FR基准,消融全面,量化了等效真实数据量
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,实验结论明确
- 价值: ⭐⭐⭐⭐ 为隐私受限场景下的人脸识别训练提供了实用方案