CORAL: Disentangling Latent Representations in Long-Tailed Diffusion¶
基本信息¶
- arXiv: 2506.15933
- 会议: NeurIPS 2025
- 作者: Esther Rodriguez, Monica Welfert, Samuel McDowell, Nathan Stromberg, Julian Antolin Camarena, Lalitha Sankar
- 机构: Arizona State University 等(以论文页为准)
- 代码: 论文页面未明确公开(可后续补查)
一句话总结¶
论文系统分析长尾数据下扩散模型尾部类别生成质量下降的根因,指出 U-Net 瓶颈潜表示发生“头类-尾类子空间重叠”导致特征借用,并提出 CORAL 对比式潜空间对齐正则,显著提升尾类样本的多样性与视觉质量。
背景与动机¶
扩散模型通常假设类别分布较平衡,而真实场景常呈长尾分布: - 头部类样本多、尾部类样本少; - 尾部类生成常出现模式坍塌、质量下降; - 以往工作多从“数据少”角度解释,但机制层面不清楚。
论文的关键洞察是:问题不只是尾类样本少,而是类间相对失衡会扭曲潜空间结构。
核心问题¶
在长尾训练下,如何避免尾类潜表示被头类子空间侵蚀,从而恢复尾类条件生成的判别性与可控性?
方法详解¶
1. 机制诊断:尾类潜表示重叠¶
作者研究 U-Net 瓶颈层特征后发现: - 尾类 latent 子空间与头类显著重叠; - 生成时模型“借用”头类特征,导致尾类样本同质化和偏移; - 这种现象与类别相对比例强相关,不是简单的数据量效应。
2. CORAL:COntrastive Regularization for Aligning Latents¶
核心思想是在潜空间施加监督对比约束: - 同类样本(尤其尾类)聚合; - 异类样本分离; - 强化类别可分离结构,抑制头类表征泄漏。
该正则与原扩散训练目标联合优化,属于训练阶段可插拔增强项。
3. 训练目标¶
总体目标为扩散损失 + 对比式潜对齐损失: - 扩散损失保证生成质量与收敛稳定; - 对齐损失保证类别结构不被长尾分布破坏。
实验结论(摘要可见)¶
- 在长尾设定下,CORAL 相对 SOTA 方法显著提升尾类样本:
- 多样性更好;
- 视觉质量更高;
- 尾类退化问题明显缓解。
注:具体指标(如 FID/Recall/Per-class 质量)需在 PDF 表格中补录。
亮点¶
- 根因定位清晰:从“结果退化”深入到“潜空间重叠机制”。
- 方法简单有效:对比学习式正则可与现有扩散训练直接结合。
- 问题重要:长尾生成是工业数据常态,实际价值高。
- 解释力强:强调相对类不平衡的结构性影响。
局限性¶
- 方法需要训练阶段介入,不能直接做 test-time 修复。
- 对比损失权重与采样策略可能对不同数据集敏感。
- 在超大规模类别空间(如开放词汇)下的可扩展性待验证。
与相关工作的对比¶
- 相比重采样/重加权:CORAL直接约束潜表示结构,不仅调数据分布。
- 相比 classifier-based 引导:CORAL在生成器内部 latent 层面做结构解耦。
- 相比通用扩散改进:CORAL专门面向长尾类别生成退化这一关键痛点。
启发¶
- 可与 text-conditional T2I 扩散结合,做“语义长尾 token”的潜空间去耦。
- 可迁移到视频扩散中处理稀有动作/罕见事件类别。
- 对 VLM 生成-理解联合训练中的类别偏置也有启发。
评分¶
- 新颖性:★★★★☆
- 技术深度:★★★★☆
- 实验完整度:★★★★☆(待补读具体数值)
- 实用价值:★★★★★