Imbalance in Balance: Online Concept Balancing in Generation Models¶

会议: ICCV 2025
arXiv: 2507.13345
代码: https://github.com/KwaiVGI/IMBA-Loss
领域: Image Generation / Diffusion Models
关键词: 概念组合, 数据不平衡, IMBA Loss, 扩散模型训练, 长尾分布

一句话总结¶

通过精心设计的因果实验揭示了数据分布（而非模型规模或数据量）是扩散模型概念组合能力的决定性因素，并提出 IMBA Loss——一种在线的、概念级别的均衡损失函数，通过条件与无条件分布差异（IMBA 距离）自适应调整 token 级损失权重，只需几行代码修改即可显著提升模型的多概念生成能力。

研究背景与动机¶

当前最先进的 T2I 模型（DALL-E 3、SD3、Midjourney、Flux）在处理多概念组合时仍存在严重问题：概念缺失（生成图像中缺少某个概念）、属性泄露（属性错误匹配到其他物体）和概念纠缠（出现不应存在的多余概念）。

现有工作主要从推理端（training-free）着手，通过优化注意力图来增强概念响应，但受限于基础模型能力。更根本的问题是：什么因素决定了模型的概念组合能力？ 此前的研究大多基于简单的合成数据（基本形状+颜色），与真实 T2I 任务差距巨大。

作者提出并逐一验证三个假设：(1) 数据规模够大就自然覆盖所有概念？(2) 模型够大就能学好概念组合？(3) 数据分布才是关键？结论是 只有第三个假设成立，且现有数据集虽然表面上规模巨大，实际上呈现严重的长尾分布，导致尾部概念的学习不充分。

方法详解¶

整体框架¶

IMBA Loss 的核心思路是：在标准扩散训练损失上乘以一个自适应的概念级权重，使尾部概念（低频概念）获得更高的损失权重。该权重由 IMBA 距离（条件分布与无条件分布之间的差异）实时估计，不需要离线统计数据分布，完全在线计算。

关键设计¶

IMBA 距离定义与数据分布近似: 从理论推导发现，概念 \(c_j\) 的条件分布与无条件分布之差 \(D_j = \|\epsilon_\theta(a_t, c_j, t) - \epsilon_\theta(a_t, \phi, t)\| \propto \frac{1}{\varphi(c_j)}\)，其中 \(\varphi(c_j)\) 是概念频率。直觉上，高频概念的无条件分布已偏向其方向，差异自然小；低频概念则差异大。训练中用 ground truth 噪声替代条件预测以提升稳定性：\(D = \|\epsilon - \epsilon_\theta(x_t, \phi, t)\|_{sg}^\gamma\)，其中 \(sg\) 表示停止梯度。实质上 IMBA 距离等价于无条件损失的 \(\gamma\) 次方。
Token 级重加权（而非样本级）: 传统类别不均衡方法为每个样本分配一个权重，但在 T2I 任务中每个图像包含多种概念、不同区域对应不同概念。IMBA Loss 在空间维度（token 级别）应用不同权重，对图像中不同概念区域赋予不同的均衡力度。这比样本级重加权更精细准确。IMBA 距离的形状为 \((B, N, C)\)，在通道维度取平均以提升稳定性。
在线自适应（无需离线统计）: 传统数据均衡需要先遍历整个数据集统计频率，随着数据集增大到数百万乃至上亿级别，这变得极其昂贵。IMBA 距离在每个训练步自然产生，随模型训练动态变化，始终反映模型当前对数据分布的理解，且只需在标准训练流程中增加一次无条件前向传播（本就是 classifier-free guidance 训练的一部分）。

损失函数 / 训练策略¶

最终 IMBA Loss 形式：\(L^* = \mathbb{E}_{t,x_0,\epsilon} D \|\epsilon - \epsilon_\theta(x_t, y, t)\|^2\)，其中 \(D = \|\epsilon - \epsilon_\theta(x_t, \phi, t)\|_{sg}^\gamma\)。

训练算法（Algorithm 1）： 1. 采样数据对 \((x_0, y)\)，噪声 \(\epsilon\)，时间步 \(t\) 2. 加噪得 \(x_t\) 3. 计算 IMBA 距离 \(D\)（无条件预测 vs ground truth，停止梯度） 4. 条件损失 \(L^* = D \|\epsilon - \epsilon_\theta(x_t, y, t)\|^2\) 5. 无条件损失 \(L_u = \|\epsilon - \epsilon_\theta(x_t, \phi, t)\|^2\) 6. 总损失 \(L = \lambda L^* + (1-\lambda) L_u\)，其中 \(\lambda = 0.9\)

关键超参数：\(\gamma = 0.8\)（避免颜色偏移），\(\lambda = 0.9\)（与原始条件掩码比例一致）。

实验关键数据¶

主实验 (表格)¶

三个 Benchmark 定量对比

模型	LC-Mis CLIP↑	LC-Mis VQA↑	T2I-Comp Color↑	T2I-Comp Shape↑	T2I-Comp Texture↑	Inert-Comp CLIP↑	Inert-Comp VQA↑
Baseline	0.3045	46.21%	0.5812	0.4307	0.6188	0.3194	44%
A&E (training-free)	0.3198	48.42%	0.6141	0.4378	0.6329	0.3303	44.5%
Finetune (diffusion loss)	0.3073	51.82%	0.6668	0.4919	0.6575	0.3172	46%
IMBA Loss (ours)	0.3121	62.89%	0.7067	0.5151	0.6861	0.3229	57%

IMBA Loss 在 VQA 成功率上从 46.21% 提升到 62.89%（+16.7pp），Color/Shape/Texture 属性准确率全面领先。

消融实验 (表格)¶

数据分布 vs 数据规模因果实验

概念对	Head 样本	Tail 样本	比例	成功率	CLIP Score
piano-submarine (不平衡大)	3K	0.03K	100:1	16%	0.3076
piano-submarine (不平衡更大)	15K	0.15K	100:1	20%	0.3110
piano-submarine (平衡)	0.15K	0.15K	1:1	56%	0.3226
volcano-twins (不平衡大)	1K	0.1K	10:1	28%	0.2986
volcano-twins (不平衡更大)	5K	0.5K	10:1	20%	0.2948
volcano-twins (平衡)	0.5K	0.5K	1:1	64%	0.3137

关键发现: 数据规模扩大 5 倍（保持相同不平衡分布）对概念组合成功率几乎无提升甚至下降；而平衡化数据（即使数据量更少）大幅提升成功率（16%→56%，28%→64%）。

损失权重粒度对比

权重粒度	Baseline	Sample-wise	Token-wise (ours)
成功率	32%	64%	72%
CLIP Score	0.2924	0.3022	0.3106

Token-wise 重加权优于 sample-wise，因为它能对图像中不同概念区域施加不同权重。

均衡方法对比

方法	Baseline	Frequency-based	IMBA Loss (ours)
成功率	33.3%	49.3%	65.7%
CLIP Score	0.3113	0.3101	0.3218

关键发现¶

模型规模不是瓶颈: 100M→1B 参数，超过 200M 后概念组合能力不再随模型增大提升。
数据规模也不是: 保持相同不平衡分布下增加数据量，概念组合不改善。
数据分布是根因: 平衡化的小数据集胜过不平衡的大数据集。
IMBA 距离跨架构稳定: 不同模型大小、架构和噪声下，IMBA 距离一致反映数据分布。
惰性概念（Inert concepts）: 低频概念更难参与组合，成功率随频率下降几乎线性降低。
\(\gamma\) 的影响: \(\gamma \to 0\) 退化为标准损失，\(\gamma \to 2\) 引起严重颜色偏移，\(\gamma = 0.8\) 为最佳平衡。

亮点与洞察¶

因果分析严谨: 不同于大多数工作直接提方法，本文先用控制变量实验验证因果假设，再设计解决方案，研究范式值得学习。
理论推导自洽: 从理想均衡分布出发推导损失权重形式，发现 IMBA 距离（无条件损失的 \(\gamma\) 次方）是频率倒数的自然近似，理论与实践统一。
极简实现: 只需在标准训练代码中修改几行——计算无条件预测（本来就有），用它对条件损失加权。
2D 合成实验精妙: 用二维空间直观展示了数据不平衡导致无条件分布偏向高频概念、进而降低低频概念响应强度的机理。
新 Benchmark Inert-CompBench: 专门针对难以组合的惰性概念设计，填补了现有 benchmark（T2I-CompBench、LC-Mis）对尾部概念覆盖不足的空白。

局限与展望¶

基于 1B 参数的 DiT 模型训练，未在更大模型（如 SDXL 级别）或商用模型上验证。
IMBA 距离在 \(t=1000\)（全噪声）时才有跨概念可比性，中间时间步的比较需要更多研究。
\(\gamma = 0.8\) 和 \(\lambda = 0.9\) 的超参数选择来自经验调优，不同任务/数据集可能需要重新调整。
方法假设无条件分布能反映概念频率，但在训练早期模型欠拟合时这一假设可能不完全成立。
fine-tuning 场景下的改进有限（Inert-CompBench 上只从 44%→46%），惰性概念可能需要更长训练。
仅关注名词概念的组合，对动词、副词等其他类型概念的平衡未探讨。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 因果分析+理论推导+在线方法，从问题发现到解决方案完整且优雅
实验充分度: ⭐⭐⭐⭐ 控制变量实验+三个 benchmark+多种消融，但基础模型规模较小
写作质量: ⭐⭐⭐⭐ 叙事逻辑清晰，但数学符号较多需要仔细阅读
价值: ⭐⭐⭐⭐⭐ 对扩散模型训练有普遍指导意义，几行代码即可应用于任何扩散模型