跳转至

CORAL: Disentangling Latent Representations in Long-Tailed Diffusion

基本信息

  • arXiv: 2506.15933
  • 会议: NeurIPS 2025
  • 作者: Esther Rodriguez, Monica Welfert, Samuel McDowell, Nathan Stromberg, Julian Antolin Camarena, Lalitha Sankar
  • 机构: Arizona State University 等(以论文页为准)
  • 代码: 论文页面未明确公开(可后续补查)

一句话总结

论文系统分析长尾数据下扩散模型尾部类别生成质量下降的根因,指出 U-Net 瓶颈潜表示发生“头类-尾类子空间重叠”导致特征借用,并提出 CORAL 对比式潜空间对齐正则,显著提升尾类样本的多样性与视觉质量。

背景与动机

扩散模型通常假设类别分布较平衡,而真实场景常呈长尾分布: - 头部类样本多、尾部类样本少; - 尾部类生成常出现模式坍塌、质量下降; - 以往工作多从“数据少”角度解释,但机制层面不清楚。

论文的关键洞察是:问题不只是尾类样本少,而是类间相对失衡会扭曲潜空间结构。

核心问题

在长尾训练下,如何避免尾类潜表示被头类子空间侵蚀,从而恢复尾类条件生成的判别性与可控性?

方法详解

1. 机制诊断:尾类潜表示重叠

作者研究 U-Net 瓶颈层特征后发现: - 尾类 latent 子空间与头类显著重叠; - 生成时模型“借用”头类特征,导致尾类样本同质化和偏移; - 这种现象与类别相对比例强相关,不是简单的数据量效应。

2. CORAL:COntrastive Regularization for Aligning Latents

核心思想是在潜空间施加监督对比约束: - 同类样本(尤其尾类)聚合; - 异类样本分离; - 强化类别可分离结构,抑制头类表征泄漏。

该正则与原扩散训练目标联合优化,属于训练阶段可插拔增强项。

3. 训练目标

总体目标为扩散损失 + 对比式潜对齐损失: - 扩散损失保证生成质量与收敛稳定; - 对齐损失保证类别结构不被长尾分布破坏。

实验结论(摘要可见)

  • 在长尾设定下,CORAL 相对 SOTA 方法显著提升尾类样本:
  • 多样性更好;
  • 视觉质量更高;
  • 尾类退化问题明显缓解。

注:具体指标(如 FID/Recall/Per-class 质量)需在 PDF 表格中补录。

亮点

  1. 根因定位清晰:从“结果退化”深入到“潜空间重叠机制”。
  2. 方法简单有效:对比学习式正则可与现有扩散训练直接结合。
  3. 问题重要:长尾生成是工业数据常态,实际价值高。
  4. 解释力强:强调相对类不平衡的结构性影响。

局限性

  1. 方法需要训练阶段介入,不能直接做 test-time 修复。
  2. 对比损失权重与采样策略可能对不同数据集敏感。
  3. 在超大规模类别空间(如开放词汇)下的可扩展性待验证。

与相关工作的对比

  • 相比重采样/重加权:CORAL直接约束潜表示结构,不仅调数据分布。
  • 相比 classifier-based 引导:CORAL在生成器内部 latent 层面做结构解耦。
  • 相比通用扩散改进:CORAL专门面向长尾类别生成退化这一关键痛点。

启发

  • 可与 text-conditional T2I 扩散结合,做“语义长尾 token”的潜空间去耦。
  • 可迁移到视频扩散中处理稀有动作/罕见事件类别。
  • 对 VLM 生成-理解联合训练中的类别偏置也有启发。

评分

  • 新颖性:★★★★☆
  • 技术深度:★★★★☆
  • 实验完整度:★★★★☆(待补读具体数值)
  • 实用价值:★★★★★