CORAL: Disentangling Latent Representations in Long-Tailed Diffusion¶

基本信息¶

arXiv: 2506.15933
会议: NeurIPS 2025
作者: Esther Rodriguez, Monica Welfert, Samuel McDowell, Nathan Stromberg, Julian Antolin Camarena, Lalitha Sankar
机构: Arizona State University 等（以论文页为准）
代码: 论文页面未明确公开（可后续补查）

论文系统分析长尾数据下扩散模型尾部类别生成质量下降的根因，指出 U-Net 瓶颈潜表示发生“头类-尾类子空间重叠”导致特征借用，并提出 CORAL 对比式潜空间对齐正则，显著提升尾类样本的多样性与视觉质量。

扩散模型通常假设类别分布较平衡，而真实场景常呈长尾分布： - 头部类样本多、尾部类样本少； - 尾部类生成常出现模式坍塌、质量下降； - 以往工作多从“数据少”角度解释，但机制层面不清楚。

论文的关键洞察是：问题不只是尾类样本少，而是类间相对失衡会扭曲潜空间结构。

在长尾训练下，如何避免尾类潜表示被头类子空间侵蚀，从而恢复尾类条件生成的判别性与可控性？

作者研究 U-Net 瓶颈层特征后发现： - 尾类 latent 子空间与头类显著重叠； - 生成时模型“借用”头类特征，导致尾类样本同质化和偏移； - 这种现象与类别相对比例强相关，不是简单的数据量效应。

核心思想是在潜空间施加监督对比约束： - 同类样本（尤其尾类）聚合； - 异类样本分离； - 强化类别可分离结构，抑制头类表征泄漏。

该正则与原扩散训练目标联合优化，属于训练阶段可插拔增强项。

总体目标为扩散损失 + 对比式潜对齐损失： - 扩散损失保证生成质量与收敛稳定； - 对齐损失保证类别结构不被长尾分布破坏。

注：具体指标（如 FID/Recall/Per-class 质量）需在 PDF 表格中补录。