DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers¶

会议: CVPR 2026
arXiv: 2603.04239
代码: 有
领域: 自监督/表示学习
关键词: Diffusion Transformer, 表示多样性, 长残差连接, 多样性损失, 图像生成

一句话总结¶

通过系统分析发现 DiT 各 block 间的表示多样性是有效学习的关键因素，提出 DiverseDiT：用长残差连接多样化输入 + 表示多样性损失显式促进 block 间特征差异化，无需外部引导模型即可加速收敛并提升生成质量。

研究背景与动机¶

1. 领域现状¶

Diffusion Transformers (DiT) 凭借出色的可扩展性在视觉生成领域取得突破。近期研究发现高性能扩散模型内部能捕获更具判别性的表示，由此催生了 REPA 等方法——将 DiT 中间层表示与预训练视觉编码器（如 DINOv2）的特征对齐来引导表示学习，后续 REPA-E、REG 等进一步扩展了这一思路。

2. 痛点¶

依赖外部大模型：REPA 系列方法需要预训练好的强力视觉编码器（DINOv2、MAE 等），这些编码器本身训练代价巨大
机制不清：DiT 如何学到有意义的表示？为什么外部对齐有效？这些根本问题缺乏理解
盲目对齐反而有害：对更多 block 用更多编码器做对齐，性能反而可能下降

3. 核心矛盾¶

现有方法在"用外部模型提供引导"和"理解模型内在表示学习机制"之间存在断层——大家在用 REPA 但不清楚它为什么有效，导致无法设计更原理性的改进方案。

4. 要解决什么¶

揭示 DiT 表示学习的内在机制，并基于此设计无需外部引导的高效表示学习框架。

5. 切入角度¶

用 CKA（Centered Kernel Alignment）系统度量训练过程中各 block 表示的相似性变化，从"block 间表示多样性"这一新视角理解和改进 DiT。

6. 核心 idea¶

表示多样性假说：DiT 中各 block 间的表示差异越大，模型学得越好。REPA 之所以有效，本质是因为它增加了被对齐 block 与其他 block 的表示差异。基于此，可以直接设计机制促进多样性，而不必依赖外部编码器。

方法详解¶

整体框架¶

DiverseDiT 包含两个互补组件：

长残差连接 (Long Residual Connections)：将浅层 block 的输出注入对称深层 block，打破输入同质化
表示多样性损失 (Representation Diversity Loss)：由正交损失、互信息最小化损失、特征离散损失三部分组成，显式约束各 block 学到不同特征

两者分别从"输入多样化"和"输出差异化"两个层面促进表示多样性，不需要任何外部预训练模型。

关键设计¶

设计一：长残差连接¶

做什么：将第 \(i\) 个 block 的输出连接到第 \((L-i)\) 个 block（\(L\) 为总层数），形成对称的跳跃连接
核心思路：\(f_l = \text{Linear}(\text{Norm}(f_i \oplus f_{l-1}))\)，其中 \(\oplus\) 是拼接操作，通过 LayerNorm + Linear 将拼接后的 \(2D\) 维特征映射回 \(D\) 维
设计动机：传统 DiT 每个 block 的输入仅来自上一层输出，导致输入高度同质化。通过注入浅层特征，使不同 block 接收到差异化的输入信号，促进特征复用并防止表示坍缩

设计二：正交损失 \(\mathcal{L}_{\text{orth}}\)¶

做什么：惩罚不同 block 平均表示之间的高余弦相似度
核心思路：对 block 的 token 级表示沿 batch 和 token 维度求均值得到 \(\mu_l \in \mathbb{R}^D\)，然后最小化所选 block 对之间的余弦相似度
设计动机：鼓励不同 block 学到方向正交的特征表达，避免冗余

设计三：互信息最小化损失 \(\mathcal{L}_{\text{MI}}\)¶

做什么：最小化不同 block 表示之间的统计依赖性
核心思路：用归一化 token 向量间的平均余弦相似度作为互信息的高效代理，避免了直接计算高维协方差矩阵
设计动机：确保 block 间表示的统计独立性，使每个 block 捕获互补信息

设计四：特征离散损失 \(\mathcal{L}_{\text{disp}}\)¶

做什么：最大化特征激活在通道维度上的方差
核心思路：将各 block 表示展平并归一化后，计算各维度平均激活值，再最大化其方差（取负作为损失）
设计动机：鼓励模型充分利用所有特征通道，避免激活集中在少数维度

损失函数 / 训练策略¶

总多样性损失：\(\mathcal{L}_{\text{div}} = 0.33 \cdot \mathcal{L}_{\text{orth}} + 0.33 \cdot \mathcal{L}_{\text{MI}} + 0.33 \cdot \mathcal{L}_{\text{disp}}\)

自适应权重机制：当 \(\mathcal{L}_{\text{div}}\) 过小（趋近 0）时模型会发散（过度分离阻碍学习共享语义表示），因此设置分段线性权重：

\(\mathcal{L}_{\text{div}} > 0.5\)：权重 \(w=1\)（正常优化）
\(0.1 < \mathcal{L}_{\text{div}} \le 0.5\)：权重 \(w = (\mathcal{L}_{\text{div}} - 0.1) / 0.5\)（逐渐减弱）
\(\mathcal{L}_{\text{div}} \le 0.1\)：权重 \(w=0\)（停止优化多样性）

训练配置：AdamW, lr=1e-4, batch size=256, 8×H800 GPU。仅为长残差连接引入少量额外参数（Linear 层）。

实验关键数据¶

主实验¶

表1：不同模型规模在 ImageNet 256×256 上的结果（无CFG，400K iterations）

模型	FID↓	sFID↓	IS↑	Prec.↑	Rec.↑
SiT-B	36.80	6.77	40.09	0.51	0.63
+ Ours	28.05	6.04	50.66	0.57	0.63
REPA-B	22.99	6.70	64.73	0.59	0.65
+ Ours	17.29	6.56	79.92	0.62	0.65
SiT-XL	17.43	5.11	76.00	0.64	0.64
+ Ours	12.42	4.85	95.01	0.68	0.63
REPA-XL	8.73	5.21	118.68	0.69	0.65
+ Ours	8.09	5.02	123.23	0.70	0.65

表2：与 SOTA 方法在 ImageNet 256×256 上的对比（有CFG）

方法	Epochs	FID↓	IS↑	Rec.↑
DiT-XL/2	1400	2.27	278.20	0.57
SiT-XL/2	1400	2.06	270.30	0.59
REPA	200	1.96	264.00	0.60
REG	800	1.36	299.40	0.66
SRA	800	1.58	311.40	0.63
DiverseDiT (Ours)	80	1.89	276.85	0.66
DiverseDiT (Ours)	200	1.52	282.72	0.66

单步生成 SOTA（ImageNet 256×256，有CFG）：MeanFlow-XL/2 + Ours 达到 FID=2.99，超越所有现有单步方法。

消融实验¶

组件消融（SiT-B / REPA-B, 400K iter）：

配置	SiT-B FID↓	REPA-B FID↓
Full（完整方法）	28.05	17.29
w/o diversity loss	32.77	20.66
w/o residual connections	33.72	18.18

损失变体消融（REPA-B）：

配置	FID↓	IS↑
Full	17.29	79.92
only \(\mathcal{L}_{\text{orth}}\)	18.97	75.44
only \(\mathcal{L}_{\text{MI}}\)	17.70	78.34
only \(\mathcal{L}_{\text{disp}}\)	20.85	68.74

自适应范围消融：恒定权重导致发散；[0.1, 0.5] 范围最优（FID 28.05），比 [0.2, 0.7]（30.59）和 [0.3, 0.9]（31.85）更好。

关键发现¶

一致性提升：在 SiT、REPA、MeanFlow 三种基线上，B/L/XL 三种规模下，方法均带来稳定改善
跨规模竞争力：REPA-B + Ours (17.29) 优于原始 SiT-L (18.77)，REPA-L + Ours (8.47) 优于 REPA-XL (8.73)
训练效率：仅用 80 epochs 即可达到 FID 1.89，优于 REPA 200 epochs 的 1.96
与现有方法互补：SiT-B + Ours + DispLoss + SRA = FID 21.95，优于 REPA-B 的 22.99（且不需要外部编码器）

亮点与洞察¶

分析驱动设计：先做系统的 CKA 分析揭示"表示多样性"这一关键因素，再据此设计方法，逻辑链条完整
为 REPA 提供新解释：REPA 有效不是因为外部知识本身，而是因为它增加了目标 block 与其他 block 的表示差异——这一洞察非常有启发性
简洁高效：两个组件概念简单、实现轻量，仅引入少量参数（长残差的 Linear 层），适用性广
无需外部模型：摆脱了对 DINOv2/MAE 等大型预训练编码器的依赖

局限性 / 可改进方向¶

自适应权重机制（分段线性函数）略显 ad-hoc，阈值 0.1/0.5 缺乏理论基础
block 对的选取策略（子集 \(\mathcal{P}\)）未深入讨论，最优选择可能与模型规模/深度相关
仅在 ImageNet 上验证，未测试文本到图像/视频等更复杂场景
与 REG (FID 1.36@800ep) 相比仍有差距（Ours FID 1.52@200ep），长训练下的表现未充分探索
长残差连接在非对称架构（如 U-ViT）上的泛化性待验证

评分¶

⭐⭐⭐⭐ 扎实的分析驱动工作，从 CKA 观察到方法设计逻辑自洽，两个组件简洁有效且与现有方法互补，实验充分覆盖多基线多规模；轻微不足在于自适应权重设计偏经验性，且缺乏对更广泛生成场景的验证。