Difficulty Controlled Diffusion Model for Synthesizing Effective Training Data¶

会议: AAAI 2026
arXiv: 2411.18109
代码: https://github.com/komejisatori/Difficulty-Aware-Synthesis
领域: 图像生成 / 数据合成
关键词: 扩散模型, 难度可控生成, 训练数据合成, 课程学习, 难度编码器

一句话总结¶

在Stable Diffusion中引入难度编码器（MLP，输入类别+难度分数），通过LoRA微调解耦"域对齐"和"难度控制"两个目标，使生成数据的学习难度可控——仅用10%额外合成数据即超过Real-Fake的最佳结果，节省63.4 GPU小时。

研究背景与动机¶

领域现状: 扩散模型合成训练数据已成为数据增强的主流方式，Real-Fake等方法通过微调实现域对齐
现有痛点: 微调后的模型只捕获目标数据集的主要特征，生成的样本以"简单样本"为主（难度分数分布极度偏向低难度）。而中等难度样本对训练最有价值（表1: medium难度样本提升+0.8%，easy仅+0.2%，extremely hard反而-0.4%），但Real-Fake中medium难度仅占生成数据的约1%
核心矛盾: 不微调→域不对齐；微调→只生成简单样本。域对齐和难度多样性之间存在两难
本文要解决: 如何在保持域对齐的同时，控制生成样本的学习难度
切入角度: 将学习难度作为显式条件信号注入扩散模型，通过独立的难度编码器解耦域对齐和难度建模
核心idea: 难度编码器学习"难度分数→难度特征"的映射，LoRA负责域对齐，两者分工明确互不干扰

方法详解¶

整体框架¶

输入: 目标数据集的图像 + 类别标签 + 预训练分类器计算的难度分数 + 文本提示。微调: 在Stable Diffusion中加入难度编码器，用LoRA微调。生成: 指定难度分数分布 \(s \sim \mathcal{N}(\mu, \sigma)\) 采样生成数据。

关键设计¶

难度分数定义:
做什么: 用预训练分类器的预测置信度定义样本难度
核心思路: \(s = 1 - c\)，其中 \(c\) 是分类器对真实类别的softmax概率。\(s\) 越高=样本越难
设计动机: 简单直观，不依赖特定分类器架构，且与下游任务直接相关
难度编码器 \(\mathcal{E}_d\):
做什么: 将难度分数映射为控制生成的潜在嵌入
核心思路: MLP接收类别标签和难度分数的拼接 \(\bm{h_i} = \mathcal{E}_d([y_i] \oplus [s_i])\)，输出嵌入与CLIP文本嵌入拼接后送入U-Net的cross-attention。引入类别信息是因为同一难度分数在不同类别中对应不同视觉特征
设计动机: 需要类别条件化，因为"垃圾车"的难度因素（拥挤场景）和"高尔夫球"的难度因素完全不同
解耦训练策略:
做什么: LoRA微调U-Net实现域对齐，难度编码器从头训练实现难度控制
核心思路: 损失函数为标准去噪损失 \(\mathcal{L} = \mathbb{E}[\|\epsilon - \epsilon_{(\theta,\delta)}(z_t, t, \tau)\|_2^2]\)，其中条件 \(\tau = \mathcal{E}_{text}(p) \oplus \bm{h}\)
设计动机: LoRA和难度编码器的学习目标自然分离——LoRA学域分布，编码器学难度→难度映射

生成策略¶

生成时从高斯分布 \(s \sim \mathcal{N}(\mu=0.5, \sigma=0.1)\) 采样难度分数，使用BLIP-2生成的多样化文本提示（训练时用简单模板，生成时用复杂提示以增加多样性）。

实验关键数据¶

主实验¶

ImageNet上ResNet-50分类精度（表2）：

方法	合成数据比例	Top-1 Acc	GPU小时
Real only	0%	78.21	0
Real-Fake	100% (最佳)	78.73	158.5
Ours	10%	78.74	15.9
Ours	25%	78.76	39.6

多个数据集上结果: CUB上提升1.2%+，Cars上也一致优于Real-Fake。

消融实验¶

配置 (μ, σ)	Imagenette Acc	说明
μ=0.5, σ=0.1	96.4	最佳配置
μ=0.3, σ=0.1	95.8	偏简单
μ=0.7, σ=0.1	96.0	偏难
μ=0.9, σ=0.1	95.2	太难，性能下降

不同模型架构验证（表4）：

模型	Real only	+ Real-Fake	+ Ours
ResNet-50	95.0	95.4	96.4
ResNet-101	95.6	95.8	96.8
ViT-Small	82.6	84.8	86.0

关键发现¶

中等难度样本最有价值: μ=0.5时最优，太简单或太难都不行
跨架构泛化: 用ResNet-50计算难度分数，训练ViT-Small也有效——难度特征不依赖特定架构
10%数据即超SOTA: 仅需10%合成数据（15.9 GPU小时）即达到Real-Fake用100%数据（158.5 GPU小时）的最佳结果
难度因素可视化: 去掉文本提示只用难度条件生成，可揭示类别特定的难度因素（如垃圾车：拥挤场景=难，清晰背景=易）

亮点与洞察¶

解耦设计极其elegant — LoRA管域对齐、编码器管难度控制，各司其职。这种"一个条件一个模块"的解耦思路可推广到任何多条件生成任务
实用性极强 — 仅需10%额外数据就超过SOTA，大幅降低合成成本。难度编码器仅增加8%延迟
副产品有价值 — 难度因素可视化功能可作为数据集分析工具，帮助理解"什么让样本变难"

局限性 / 可改进方向¶

难度定义依赖分类器: 换不同分类器可能得到不同的难度分布，鲁棒性有待验证
仅验证分类任务: 未扩展到检测、分割等更复杂的下游任务
单一难度维度: 现实中"难"有多种原因（遮挡、光照、类间相似），单一标量可能不够
改进思路: 可以引入多维难度向量，分别控制不同难度因素；可以结合主动学习，让分类器动态指定最需要的难度区间

评分¶

新颖性: ⭐⭐⭐⭐ 难度编码器+LoRA解耦设计简洁有效
实验充分度: ⭐⭐⭐⭐ 多数据集多架构验证，消融和可视化完整
写作质量: ⭐⭐⭐⭐⭐ 动机链清晰（两难→解耦→验证），图表设计优秀
价值: ⭐⭐⭐⭐ 对数据合成领域有直接实用价值