跳转至

UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation

会议: NeurIPS 2025
arXiv: 2510.24262
代码: 暂无
领域: 扩散模型 / 图像生成 / 数据增强
关键词: 数据增强, 任务效用, 扩散模型, 双层优化, DPO

一句话总结

提出以任务效用为中心的生成式数据增强框架 UtilGen,通过元学习权重网络评估合成数据的下游任务效用,并利用模型级 DPO 和实例级(prompt+noise)双层优化策略,自适应生成高效用的合成训练数据,在8个基准上平均提升3.87%。

研究背景与动机

现有的生成式数据增强方法主要关注合成数据的内在属性优化——保真度(fidelity)和多样性(diversity),例如通过 LoRA 微调对齐真实分布,或通过多样化 prompt 增强数据变化。然而,这些方法忽视了一个关键问题:不同的下游任务和模型架构对训练数据的需求截然不同。同一类别中,对某个任务有帮助的样本对另一个任务可能毫无价值。

以往方法缺乏根据下游任务反馈来调整数据生成过程的机制,导致生成的数据虽然视觉质量高,但对特定任务的贡献有限。这促使作者思考:能否从"视觉质量中心"转向"任务效用中心"的数据增强范式?

核心挑战在于:(1)如何高效评估合成数据的任务效用而不需要完整的训练-测试循环?(2)如何系统地提升合成数据的任务效用?

方法详解

整体框架

UtilGen 包含三个核心模块:(1)任务导向数据估值(TODV)通过元学习权重网络量化每个样本的效用;(2)模型级生成能力优化(MLCO)用 DPO 微调扩散模型以适应下游任务偏好;(3)实例级生成策略优化(ILPO)同时优化 prompt 嵌入和初始噪声以最大化单样本效用。

关键设计

  1. 任务导向数据估值(TODV):使用一个单隐层 MLP 权重网络 \(\mathcal{W}_\phi\) 预测每个样本的效用权重:\(\omega_i = \mathcal{W}_\phi(\mathcal{L}(f(x_i;\theta), y_i))\)。通过双层优化训练:内层用加权损失训练分类器 \(\theta\),外层最小化验证集损失来优化权重网络 \(\phi\)。训练好的权重网络可以直接对新生成的样本预测效用分数,避免了昂贵的重训练。核心动机是利用元学习建立"合成数据质量→下游性能"的快速评估通道。

  2. 模型级生成能力优化(MLCO):利用权重网络将生成样本分为高效用和低效用配对,构建偏好数据集 \(\mathcal{D}_{\text{preference}}\),然后用 Diffusion DPO 微调扩散模型的 U-Net。DPO 损失为:\(\mathcal{L}_{\text{DPO}}(\psi) = -\mathbb{E}[\log\sigma(-\beta T\omega(\lambda_t)(\Delta\mathcal{L}_w - \Delta\mathcal{L}_l))]\),其中 \(\Delta\mathcal{L}_w\)\(\Delta\mathcal{L}_l\) 分别为高效用和低效用样本的噪声预测差异。通过迭代 DPO 微调,逐步使扩散模型的生成分布对齐下游任务需求。

  3. 实例级生成策略优化(ILPO):在每次生成时进行细粒度优化。(a)Prompt 嵌入优化:在 textual inversion 学到的类标识符基础上,梯度优化 prompt 嵌入以最大化权重网络预测的效用分数,同时加 CLIP 正则化防止语义偏移:\(p^* = \arg\max_p[\mathcal{W}_\phi(\mathcal{L}(f(g(p,\epsilon_T);\theta),y)) - \lambda L_{\text{CLIP}}]\)。(b)噪声优化:利用 DDIM 正反向过程中 CFG scale 的不对称性,将高效用数据的语义信息隐式注入初始噪声:\(\epsilon'_t = \text{DDIM-Inv}_{\omega_w}(\text{DDIM}_{\omega_l}(\epsilon_t, p^*))\),其中 \(\omega_l > \omega_w\) 实现语义注入。

损失函数 / 训练策略

整体训练流程为迭代式:先训练 TODV 得到效用评估器 → 用 MLCO 迭代微调扩散模型 → 每轮生成时用 ILPO 优化 prompt 和噪声。数据估值阶段使用真实+合成混合数据集进行双层优化。MLCO 和 ILPO 的优化信号均来自训练好的权重网络 \(\mathcal{W}_\phi\)

实验关键数据

主实验

在8个基准数据集上用 ResNet-50 进行分类评估,合成数据量为真实数据的5倍:

设置 方法 IN-1k-S IN-100-S Cal101 Flowers 平均
仅合成数据 DataDream (前SOTA) 30.35 35.48 23.61 65.15 33.30
仅合成数据 UtilGen 33.72 40.94 29.31 67.43 37.17
合成+真实 DataDream 52.16 57.68 73.38 89.60 58.67
合成+真实 UtilGen 54.56 61.54 75.62 93.62 62.04

平均提升:仅合成 +3.87%,联合训练 +3.37%。

消融实验

配置 准确率 (%) 说明
Baseline (SD v2.1) 27.96 无任何优化
+MLCO 28.68 模型级优化
+Prompt Opt 36.42 prompt 嵌入优化贡献最大
+Noise Opt 37.96 噪声优化也有独立增益
+MLCO+Prompt+Noise (全) 40.94 三者互补,总提升 +12.98%

关键发现

  • UtilGen 是首个仅用3倍合成数据训练的 ResNet-50 在多个基准上超越真实数据训练的方法
  • 数据影响力分析显示 UtilGen 生成的正面影响样本比例显著高于 SD v2.1
  • 合成数据具有跨架构可复用性:用 ResNet-50 训练的权重网络生成的数据对 WideResNet 和 CLIP 同样有效
  • 跨架构泛化:在 ResNeXt-50、WideResNet-50、MobileNetV2 上均保持领先

亮点与洞察

  • 极具启发性的范式转变:从优化数据的视觉属性转向优化数据对任务的效用,这是数据增强领域的重要思维转变
  • 元学习权重网络的双重用途设计巧妙:既能在分类器训练中加权样本,又能为数据生成提供效用评估信号
  • ILPO 中噪声优化的设计借鉴了 DDIM 逆过程中 CFG scale 不对称性的发现,实现了零额外训练成本的语义注入

局限与展望

  • 权重网络的效用评估依赖于分类器的当前状态,当分类器能力较弱时效用评估可能不准确
  • TODV 需要预先训练权重网络,增加了整体流程的复杂度和多阶段训练的超参数调节负担
  • 当前仅验证了分类任务,对检测、分割等更复杂任务的效用评估方式可能需要重新设计
  • 成本分析显示生成5万张图仅需4.7小时/$100,但 DPO 迭代微调的计算开销未详细讨论
  • 实验中 textual inversion 使用16-shot 真实图像(与 DataDream 一致),对极低资源场景(如1-2 shot)的表现有待验证
  • 噪声优化依赖 CFG scale 不对称性这一特定技巧,在非 DDIM 采样器上的适用性不确定

相关工作与启发

  • 与 Data Shapley 等数据估值方法的区别在于避免了昂贵的重训练,使用轻量权重网络实现在线估值
  • GAP 方法也使用下游模型反馈但仅基于对抗性损失(最大化分类器损失),本文的效用权重提供了更精细的"样本级"有用性信号
  • 与 DataDream 的核心区别:DataDream 通过 LoRA 微调提升保真度对齐真实分布,UtilGen 则通过 DPO 微调对齐下游任务偏好,两者优化目标本质不同
  • 可启发未来将效用导向的思想扩展到其他生成任务(文本增强、3D 数据增强等)
  • 成本效益分析显示生成合成数据的成本远低于人工标注($100 vs $800 for 同等规模),且质量更优

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 任务效用中心的范式转变具有重要意义,首次用 DPO+效用反馈驱动增强
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个数据集、多架构、消融完整、影响力分析深入
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详尽
  • 价值: ⭐⭐⭐⭐⭐ 为数据增强提供了新范式,实验提升显著且具有实际应用价值

相关论文