UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation¶

会议: NeurIPS 2025
arXiv: 2510.24262
代码: 暂无
领域: 扩散模型 / 图像生成 / 数据增强
关键词: 数据增强, 任务效用, 扩散模型, 双层优化, DPO

一句话总结¶

提出以任务效用为中心的生成式数据增强框架 UtilGen，通过元学习权重网络评估合成数据的下游任务效用，并利用模型级 DPO 和实例级（prompt+noise）双层优化策略，自适应生成高效用的合成训练数据，在8个基准上平均提升3.87%。

研究背景与动机¶

现有的生成式数据增强方法主要关注合成数据的内在属性优化——保真度（fidelity）和多样性（diversity），例如通过 LoRA 微调对齐真实分布，或通过多样化 prompt 增强数据变化。然而，这些方法忽视了一个关键问题：不同的下游任务和模型架构对训练数据的需求截然不同。同一类别中，对某个任务有帮助的样本对另一个任务可能毫无价值。

以往方法缺乏根据下游任务反馈来调整数据生成过程的机制，导致生成的数据虽然视觉质量高，但对特定任务的贡献有限。这促使作者思考：能否从"视觉质量中心"转向"任务效用中心"的数据增强范式？

核心挑战在于：（1）如何高效评估合成数据的任务效用而不需要完整的训练-测试循环？（2）如何系统地提升合成数据的任务效用？

方法详解¶

整体框架¶

UtilGen 包含三个核心模块：（1）任务导向数据估值（TODV）通过元学习权重网络量化每个样本的效用；（2）模型级生成能力优化（MLCO）用 DPO 微调扩散模型以适应下游任务偏好；（3）实例级生成策略优化（ILPO）同时优化 prompt 嵌入和初始噪声以最大化单样本效用。

关键设计¶

任务导向数据估值（TODV）：使用一个单隐层 MLP 权重网络 $\mathcal{W}_\phi$ 预测每个样本的效用权重：$\omega_i = \mathcal{W}_\phi(\mathcal{L}(f(x_i;\theta), y_i))$。通过双层优化训练：内层用加权损失训练分类器 $\theta$，外层最小化验证集损失来优化权重网络 $\phi$。训练好的权重网络可以直接对新生成的样本预测效用分数，避免了昂贵的重训练。核心动机是利用元学习建立"合成数据质量→下游性能"的快速评估通道。
模型级生成能力优化（MLCO）：利用权重网络将生成样本分为高效用和低效用配对，构建偏好数据集 $\mathcal{D}_{\text{preference}}$，然后用 Diffusion DPO 微调扩散模型的 U-Net。DPO 损失为：$\mathcal{L}_{\text{DPO}}(\psi) = -\mathbb{E}[\log\sigma(-\beta T\omega(\lambda_t)(\Delta\mathcal{L}_w - \Delta\mathcal{L}_l))]$，其中 $\Delta\mathcal{L}_w$ 和 $\Delta\mathcal{L}_l$ 分别为高效用和低效用样本的噪声预测差异。通过迭代 DPO 微调，逐步使扩散模型的生成分布对齐下游任务需求。
实例级生成策略优化（ILPO）：在每次生成时进行细粒度优化。（a）Prompt 嵌入优化：在 textual inversion 学到的类标识符基础上，梯度优化 prompt 嵌入以最大化权重网络预测的效用分数，同时加 CLIP 正则化防止语义偏移：$p^* = \arg\max_p[\mathcal{W}_\phi(\mathcal{L}(f(g(p,\epsilon_T);\theta),y)) - \lambda L_{\text{CLIP}}]$。（b）噪声优化：利用 DDIM 正反向过程中 CFG scale 的不对称性，将高效用数据的语义信息隐式注入初始噪声：$\epsilon'_t = \text{DDIM-Inv}_{\omega_w}(\text{DDIM}_{\omega_l}(\epsilon_t, p^*))$，其中 $\omega_l > \omega_w$ 实现语义注入。

损失函数 / 训练策略¶

整体训练流程为迭代式：先训练 TODV 得到效用评估器 → 用 MLCO 迭代微调扩散模型 → 每轮生成时用 ILPO 优化 prompt 和噪声。数据估值阶段使用真实+合成混合数据集进行双层优化。MLCO 和 ILPO 的优化信号均来自训练好的权重网络 $\mathcal{W}_\phi$。

实验关键数据¶

主实验¶

在8个基准数据集上用 ResNet-50 进行分类评估，合成数据量为真实数据的5倍：

设置	方法	IN-1k-S	IN-100-S	Cal101	Flowers	平均
仅合成数据	DataDream (前SOTA)	30.35	35.48	23.61	65.15	33.30
仅合成数据	UtilGen	33.72	40.94	29.31	67.43	37.17
合成+真实	DataDream	52.16	57.68	73.38	89.60	58.67
合成+真实	UtilGen	54.56	61.54	75.62	93.62	62.04

平均提升：仅合成 +3.87%，联合训练 +3.37%。

消融实验¶

配置	准确率 (%)	说明
Baseline (SD v2.1)	27.96	无任何优化
+MLCO	28.68	模型级优化
+Prompt Opt	36.42	prompt 嵌入优化贡献最大
+Noise Opt	37.96	噪声优化也有独立增益
+MLCO+Prompt+Noise (全)	40.94	三者互补，总提升 +12.98%

关键发现¶

UtilGen 是首个仅用3倍合成数据训练的 ResNet-50 在多个基准上超越真实数据训练的方法
数据影响力分析显示 UtilGen 生成的正面影响样本比例显著高于 SD v2.1
合成数据具有跨架构可复用性：用 ResNet-50 训练的权重网络生成的数据对 WideResNet 和 CLIP 同样有效
跨架构泛化：在 ResNeXt-50、WideResNet-50、MobileNetV2 上均保持领先

亮点与洞察¶

极具启发性的范式转变：从优化数据的视觉属性转向优化数据对任务的效用，这是数据增强领域的重要思维转变
元学习权重网络的双重用途设计巧妙：既能在分类器训练中加权样本，又能为数据生成提供效用评估信号
ILPO 中噪声优化的设计借鉴了 DDIM 逆过程中 CFG scale 不对称性的发现，实现了零额外训练成本的语义注入

局限与展望¶

权重网络的效用评估依赖于分类器的当前状态，当分类器能力较弱时效用评估可能不准确
TODV 需要预先训练权重网络，增加了整体流程的复杂度和多阶段训练的超参数调节负担
当前仅验证了分类任务，对检测、分割等更复杂任务的效用评估方式可能需要重新设计
成本分析显示生成5万张图仅需4.7小时/$100，但 DPO 迭代微调的计算开销未详细讨论
实验中 textual inversion 使用16-shot 真实图像（与 DataDream 一致），对极低资源场景（如1-2 shot）的表现有待验证
噪声优化依赖 CFG scale 不对称性这一特定技巧，在非 DDIM 采样器上的适用性不确定

评分¶

新颖性: ⭐⭐⭐⭐⭐ 任务效用中心的范式转变具有重要意义，首次用 DPO+效用反馈驱动增强
实验充分度: ⭐⭐⭐⭐⭐ 8个数据集、多架构、消融完整、影响力分析深入
写作质量: ⭐⭐⭐⭐ 结构清晰，方法描述详尽
价值: ⭐⭐⭐⭐⭐ 为数据增强提供了新范式，实验提升显著且具有实际应用价值