DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers¶
会议: CVPR 2026
arXiv: 2603.04239
代码: 有
领域: 自监督/表示学习
关键词: Diffusion Transformer, 表示多样性, 长残差连接, 多样性损失, 图像生成
一句话总结¶
通过系统分析发现 DiT 各 block 间的表示多样性是有效学习的关键因素,提出 DiverseDiT:用长残差连接多样化输入 + 表示多样性损失显式促进 block 间特征差异化,无需外部引导模型即可加速收敛并提升生成质量。
研究背景与动机¶
1. 领域现状¶
Diffusion Transformers (DiT) 凭借出色的可扩展性在视觉生成领域取得突破。近期研究发现高性能扩散模型内部能捕获更具判别性的表示,由此催生了 REPA 等方法——将 DiT 中间层表示与预训练视觉编码器(如 DINOv2)的特征对齐来引导表示学习,后续 REPA-E、REG 等进一步扩展了这一思路。
2. 痛点¶
- 依赖外部大模型:REPA 系列方法需要预训练好的强力视觉编码器(DINOv2、MAE 等),这些编码器本身训练代价巨大
- 机制不清:DiT 如何学到有意义的表示?为什么外部对齐有效?这些根本问题缺乏理解
- 盲目对齐反而有害:对更多 block 用更多编码器做对齐,性能反而可能下降
3. 核心矛盾¶
现有方法在"用外部模型提供引导"和"理解模型内在表示学习机制"之间存在断层——大家在用 REPA 但不清楚它为什么有效,导致无法设计更原理性的改进方案。
4. 要解决什么¶
揭示 DiT 表示学习的内在机制,并基于此设计无需外部引导的高效表示学习框架。
5. 切入角度¶
用 CKA(Centered Kernel Alignment)系统度量训练过程中各 block 表示的相似性变化,从"block 间表示多样性"这一新视角理解和改进 DiT。
6. 核心 idea¶
表示多样性假说:DiT 中各 block 间的表示差异越大,模型学得越好。REPA 之所以有效,本质是因为它增加了被对齐 block 与其他 block 的表示差异。基于此,可以直接设计机制促进多样性,而不必依赖外部编码器。
方法详解¶
整体框架¶
DiverseDiT 包含两个互补组件:
- 长残差连接 (Long Residual Connections):将浅层 block 的输出注入对称深层 block,打破输入同质化
- 表示多样性损失 (Representation Diversity Loss):由正交损失、互信息最小化损失、特征离散损失三部分组成,显式约束各 block 学到不同特征
两者分别从"输入多样化"和"输出差异化"两个层面促进表示多样性,不需要任何外部预训练模型。
关键设计¶
设计一:长残差连接¶
- 做什么:将第 \(i\) 个 block 的输出连接到第 \((L-i)\) 个 block(\(L\) 为总层数),形成对称的跳跃连接
- 核心思路:\(f_l = \text{Linear}(\text{Norm}(f_i \oplus f_{l-1}))\),其中 \(\oplus\) 是拼接操作,通过 LayerNorm + Linear 将拼接后的 \(2D\) 维特征映射回 \(D\) 维
- 设计动机:传统 DiT 每个 block 的输入仅来自上一层输出,导致输入高度同质化。通过注入浅层特征,使不同 block 接收到差异化的输入信号,促进特征复用并防止表示坍缩
设计二:正交损失 \(\mathcal{L}_{\text{orth}}\)¶
- 做什么:惩罚不同 block 平均表示之间的高余弦相似度
- 核心思路:对 block 的 token 级表示沿 batch 和 token 维度求均值得到 \(\mu_l \in \mathbb{R}^D\),然后最小化所选 block 对之间的余弦相似度
- 设计动机:鼓励不同 block 学到方向正交的特征表达,避免冗余
设计三:互信息最小化损失 \(\mathcal{L}_{\text{MI}}\)¶
- 做什么:最小化不同 block 表示之间的统计依赖性
- 核心思路:用归一化 token 向量间的平均余弦相似度作为互信息的高效代理,避免了直接计算高维协方差矩阵
- 设计动机:确保 block 间表示的统计独立性,使每个 block 捕获互补信息
设计四:特征离散损失 \(\mathcal{L}_{\text{disp}}\)¶
- 做什么:最大化特征激活在通道维度上的方差
- 核心思路:将各 block 表示展平并归一化后,计算各维度平均激活值,再最大化其方差(取负作为损失)
- 设计动机:鼓励模型充分利用所有特征通道,避免激活集中在少数维度
损失函数 / 训练策略¶
总多样性损失:\(\mathcal{L}_{\text{div}} = 0.33 \cdot \mathcal{L}_{\text{orth}} + 0.33 \cdot \mathcal{L}_{\text{MI}} + 0.33 \cdot \mathcal{L}_{\text{disp}}\)
自适应权重机制:当 \(\mathcal{L}_{\text{div}}\) 过小(趋近 0)时模型会发散(过度分离阻碍学习共享语义表示),因此设置分段线性权重:
- \(\mathcal{L}_{\text{div}} > 0.5\):权重 \(w=1\)(正常优化)
- \(0.1 < \mathcal{L}_{\text{div}} \le 0.5\):权重 \(w = (\mathcal{L}_{\text{div}} - 0.1) / 0.5\)(逐渐减弱)
- \(\mathcal{L}_{\text{div}} \le 0.1\):权重 \(w=0\)(停止优化多样性)
训练配置:AdamW, lr=1e-4, batch size=256, 8×H800 GPU。仅为长残差连接引入少量额外参数(Linear 层)。
实验关键数据¶
主实验¶
表1:不同模型规模在 ImageNet 256×256 上的结果(无CFG,400K iterations)
| 模型 | FID↓ | sFID↓ | IS↑ | Prec.↑ | Rec.↑ |
|---|---|---|---|---|---|
| SiT-B | 36.80 | 6.77 | 40.09 | 0.51 | 0.63 |
| + Ours | 28.05 | 6.04 | 50.66 | 0.57 | 0.63 |
| REPA-B | 22.99 | 6.70 | 64.73 | 0.59 | 0.65 |
| + Ours | 17.29 | 6.56 | 79.92 | 0.62 | 0.65 |
| SiT-XL | 17.43 | 5.11 | 76.00 | 0.64 | 0.64 |
| + Ours | 12.42 | 4.85 | 95.01 | 0.68 | 0.63 |
| REPA-XL | 8.73 | 5.21 | 118.68 | 0.69 | 0.65 |
| + Ours | 8.09 | 5.02 | 123.23 | 0.70 | 0.65 |
表2:与 SOTA 方法在 ImageNet 256×256 上的对比(有CFG)
| 方法 | Epochs | FID↓ | IS↑ | Rec.↑ |
|---|---|---|---|---|
| DiT-XL/2 | 1400 | 2.27 | 278.20 | 0.57 |
| SiT-XL/2 | 1400 | 2.06 | 270.30 | 0.59 |
| REPA | 200 | 1.96 | 264.00 | 0.60 |
| REG | 800 | 1.36 | 299.40 | 0.66 |
| SRA | 800 | 1.58 | 311.40 | 0.63 |
| DiverseDiT (Ours) | 80 | 1.89 | 276.85 | 0.66 |
| DiverseDiT (Ours) | 200 | 1.52 | 282.72 | 0.66 |
单步生成 SOTA(ImageNet 256×256,有CFG):MeanFlow-XL/2 + Ours 达到 FID=2.99,超越所有现有单步方法。
消融实验¶
组件消融(SiT-B / REPA-B, 400K iter):
| 配置 | SiT-B FID↓ | REPA-B FID↓ |
|---|---|---|
| Full(完整方法) | 28.05 | 17.29 |
| w/o diversity loss | 32.77 | 20.66 |
| w/o residual connections | 33.72 | 18.18 |
损失变体消融(REPA-B):
| 配置 | FID↓ | IS↑ |
|---|---|---|
| Full | 17.29 | 79.92 |
| only \(\mathcal{L}_{\text{orth}}\) | 18.97 | 75.44 |
| only \(\mathcal{L}_{\text{MI}}\) | 17.70 | 78.34 |
| only \(\mathcal{L}_{\text{disp}}\) | 20.85 | 68.74 |
自适应范围消融:恒定权重导致发散;[0.1, 0.5] 范围最优(FID 28.05),比 [0.2, 0.7](30.59)和 [0.3, 0.9](31.85)更好。
关键发现¶
- 一致性提升:在 SiT、REPA、MeanFlow 三种基线上,B/L/XL 三种规模下,方法均带来稳定改善
- 跨规模竞争力:REPA-B + Ours (17.29) 优于原始 SiT-L (18.77),REPA-L + Ours (8.47) 优于 REPA-XL (8.73)
- 训练效率:仅用 80 epochs 即可达到 FID 1.89,优于 REPA 200 epochs 的 1.96
- 与现有方法互补:SiT-B + Ours + DispLoss + SRA = FID 21.95,优于 REPA-B 的 22.99(且不需要外部编码器)
亮点与洞察¶
- 分析驱动设计:先做系统的 CKA 分析揭示"表示多样性"这一关键因素,再据此设计方法,逻辑链条完整
- 为 REPA 提供新解释:REPA 有效不是因为外部知识本身,而是因为它增加了目标 block 与其他 block 的表示差异——这一洞察非常有启发性
- 简洁高效:两个组件概念简单、实现轻量,仅引入少量参数(长残差的 Linear 层),适用性广
- 无需外部模型:摆脱了对 DINOv2/MAE 等大型预训练编码器的依赖
局限性 / 可改进方向¶
- 自适应权重机制(分段线性函数)略显 ad-hoc,阈值 0.1/0.5 缺乏理论基础
- block 对的选取策略(子集 \(\mathcal{P}\))未深入讨论,最优选择可能与模型规模/深度相关
- 仅在 ImageNet 上验证,未测试文本到图像/视频等更复杂场景
- 与 REG (FID 1.36@800ep) 相比仍有差距(Ours FID 1.52@200ep),长训练下的表现未充分探索
- 长残差连接在非对称架构(如 U-ViT)上的泛化性待验证
相关工作与启发¶
- REPA [Yu et al.]:用外部编码器对齐中间隐状态,本文解释了其有效性的根源
- DispLoss [Wang et al.]:离散损失鼓励表示在嵌入空间中分散,DiverseDiT 的思路更系统(输入多样性 + 输出多样性双管齐下)
- SRA [Li et al.]:用低噪声层引导高噪声层的自对齐方法,与 DiverseDiT 互补可叠加
- MeanFlow [Liu et al.]:单步生成方法,DiverseDiT 可无缝应用并刷新 SOTA
- 启发:block 间多样性的视角可推广到其他 Transformer 架构(ViT、LLM)——深层网络中的"层间协作 vs 层间冗余"是个值得深入研究的普适问题
评分¶
⭐⭐⭐⭐ 扎实的分析驱动工作,从 CKA 观察到方法设计逻辑自洽,两个组件简洁有效且与现有方法互补,实验充分覆盖多基线多规模;轻微不足在于自适应权重设计偏经验性,且缺乏对更广泛生成场景的验证。