跳转至

AugGen: Synthetic Augmentation using Diffusion Models Can Improve Recognition

会议: NeurIPS 2025
arXiv: 2503.11544
代码: https://parsa-ra.github.io/auggen/
领域: 人脸识别 / 合成数据增强
关键词: synthetic augmentation, diffusion model, face recognition, class mixing, condition vector interpolation, self-contained

一句话总结

提出AugGen——一种自包含(self-contained)的合成数据增强方法:利用扩散模型的条件向量插值(\(c^* = \alpha c_i + \beta c_j\))实现类间混合生成,无需外部数据或模型即可为人脸识别提供1-12%的性能提升,等效于1.7倍真实数据量,IR50+AugGen甚至超越IR101 real-only。

背景与动机

合成数据增强的核心矛盾:扩散模型能生成高质量图像,但合成数据与真实数据的分布差异可能引入偏差。在人脸识别领域,这个问题尤为突出——(1)隐私法规限制真实人脸数据的收集和使用;(2)类内多样性(同一人的不同角度/光照/表情)难以通过简单prompt控制;(3)先前工作结论不一,部分发现合成数据反而降低性能。AugGen的关键突破在于"自包含"——仅使用训练集本身的信息生成增强数据,不依赖外部预训练模型或额外数据源。

核心问题

如何构造一种不依赖外部数据/模型的合成增强策略,使扩散模型生成的合成人脸数据能可靠地提升识别性能?

方法详解

整体框架

AugGen的流程:(1)在训练集上微调条件扩散模型,获得每个身份的条件向量 \(c_i\);(2)通过类间混合插值 \(c^* = \alpha c_i + \beta c_j\) 生成"介于两个身份之间"的合成样本;(3)网格搜索最优 \(\alpha, \beta\) 参数;(4)将合成样本加入训练集进行增强训练。整个流程自包含,不引入外部知识。

关键设计

  1. 条件向量插值(Class Mixing): 核心创新——不简单地为每个类生成更多同类样本(会引入模式坍缩),而是通过 \(c^* = \alpha c_i + \beta c_j\) 混合两个类的条件向量。这产生的合成样本既不完全属于类 \(i\) 也不完全属于类 \(j\),提供了"类间空间"的训练信号,增强决策边界附近的判别能力。
  2. \(\alpha, \beta\) 网格搜索: 通过dissimilarity+similarity双指标评估不同 \(\alpha, \beta\) 组合的质量——dissimilarity确保合成样本与源类有足够差异(避免冗余),similarity确保不偏离太远(保持语义相关性)。最优参数在这两个指标的权衡处。
  3. 自包含设计: 扩散模型在训练集上微调,条件向量从训练数据提取,融合参数在训练数据上搜索——全流程不需要外部预训练模型(如CLIP、DALL-E)或额外数据集。

损失函数 / 训练策略

扩散模型使用标准DDPM损失微调。人脸识别模型使用ArcFace损失。合成数据与真实数据混合后统一训练,不对合成样本做特殊加权。

实验关键数据

设置 基准数 提升幅度 等效真实数据 备注
IR50 + AugGen 8个FR基准 1-12% 1.7× 远超传统增强
IR50 + AugGen - - - 超越IR101 real-only
IR101 + AugGen - 进一步提升 - 大模型也受益
无外部数据/模型 - - - 自包含性验证

消融实验要点

  • 类间混合 vs 类内生成:类间混合(\(c^* = \alpha c_i + \beta c_j\))显著优于简单复制类内样本——后者几乎无提升
  • \(\alpha, \beta\) 敏感性:存在明确的最优区间,过大的混合程度(\(\alpha + \beta\) 过大)生成无意义样本,过小则冗余
  • dissimilarity+similarity双指标的必要性:单用任一指标选参数性能下降
  • 合成数据量的边际效益:存在饱和点,过多合成数据不再提升

亮点

  • 自包含优于依赖外部模型: 证明了不需要CLIP/DALL-E等大模型也能有效生成增强数据,降低了工程门槛
  • "等效1.7×真实数据": 这个量化结论极具实用价值——当真实数据收集受限时,合成增强提供了可行替代
  • IR50超越IR101: 小模型+合成增强 > 大模型+纯真实数据——模型容量和数据质量的有趣权衡

局限性 / 可改进方向

  • 仅在人脸识别上验证,是否适用于细粒度分类(如车辆ReID、动物识别)需要进一步实验
  • 条件向量插值的几何特性依赖扩散模型的潜空间结构——不同模型架构可能表现不同
  • 网格搜索 \(\alpha, \beta\) 的计算成本在类别数很大时可能较高
  • 类间混合可能生成伦理敏感的合成人脸——隐私和公平性考量未深入讨论

与相关工作的对比

与SynFace、DigiFace等合成人脸数据方法相比,AugGen不需要外部3D模型或大规模预训练生成器。与标准数据增强(翻转、裁剪、颜色抖动)相比,AugGen在语义层面增强——生成全新的人脸变体,而非像素级变换。与DCFace等最新合成方法相比,AugGen的自包含特性使其更易于在隐私受限场景下部署。

启发与关联

  • 条件向量插值的思路可推广到其他条件生成任务——如风格混合、跨域生成
  • "自包含增强"的设计哲学值得推崇——减少对外部大模型的依赖,使方法更通用
  • 在隐私法规日益严格的背景下,合成数据增强从"可选优化"正在变为"必要基础设施"

评分

  • 新颖性: ⭐⭐⭐⭐ 条件向量插值的类间混合设计新颖,自包含约束有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个FR基准,消融全面,量化了等效真实数据量
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,实验结论明确
  • 价值: ⭐⭐⭐⭐ 为隐私受限场景下的人脸识别训练提供了实用方案