Dense2MoE: Restructuring Diffusion Transformer to MoE for Efficient Text-to-Image Generation¶

会议: ICCV 2025
arXiv: 2510.09094
代码: 无（未提及）
领域: 图像生成 / 模型压缩 / MoE
关键词: Diffusion Transformer, Mixture of Experts, 结构化稀疏, FLUX, dense-to-sparse转换

一句话总结¶

首次将预训练的dense DiT（如FLUX.1）转换为Mixture-of-Experts结构实现结构化稀疏推理，通过Taylor度量专家初始化+知识蒸馏+Mixture-of-Blocks进一步稀疏化，在激活参数减少60%的同时保持原始生成质量，全面超越剪枝方法。

背景与动机¶

DiT在文生图任务上表现出色，但参数量巨大（如FLUX.1有12B参数）导致推理开销很高。现有压缩方法主要是剪枝（pruning），但激进剪枝会导致模型容量下降和严重性能退化。MoE天然适合这个场景——保留总模型容量的同时只激活部分参数——但直接从头训练MoE扩散模型成本极高。如何将已有的dense DiT高效转换为MoE结构是关键问题。

核心问题¶

如何将预训练的dense DiT有效转换为MoE架构，在大幅减少激活参数的同时保持生成质量？

方法详解¶

整体框架¶

Dense2MoE通过三步pipeline将dense DiT转换为稀疏MoE模型：(1) 用Taylor度量将每层FFN拆分为多个专家并初始化；(2) 通过知识蒸馏+load balance loss训练MoE router和微调专家；(3) 进一步引入Mixture-of-Blocks(MoB)实现block级别的稀疏。

关键设计¶

Taylor度量专家初始化：将每个FFN层的权重矩阵拆分为多个专家时，不是随机分配而是基于Taylor展开的重要性度量来分组——使得每个专家保留最相关的参数子集，减少初始化时的性能损失。FFN的激活参数减少62.5%（8个专家只激活3个）。
知识蒸馏训练：用原始dense模型作为teacher，MoE模型作为student，通过特征级蒸馏损失+load balancing loss训练。蒸馏确保MoE输出与dense模型对齐，load balance确保专家被均匀使用避免退化。
Mixture-of-Blocks (MoB)：在block级别进一步稀疏化——不是所有DiT block都需要对每个token完整执行。通过group feature loss训练MoB router，让模型学会跳过不必要的block，进一步降低计算量。

损失函数 / 训练策略¶

多步蒸馏：Taylor初始化→MoE layer蒸馏→MoB蒸馏
损失：特征对齐loss + load balance loss + group feature loss

实验关键数据¶

在FLUX.1 [dev]上验证：激活参数减少60%
生成质量保持与原dense FLUX.1相当（FID/CLIP/GenEval等指标几乎不降）
全面超越基于剪枝的压缩方法（pruning在相同压缩比下质量明显下降）
MoB进一步提升稀疏度而不显著影响质量

消融实验要点¶

Taylor度量初始化 >> 随机初始化（性能差距显著）
知识蒸馏对保持生成质量至关重要
MoB在MoE基础上可以进一步提升10-15%的效率
62.5% FFN激活参数减少是性能-效率最优平衡点

亮点¶

首次在DiT上做dense-to-MoE转换：开创了扩散模型从dense到sparse的新范式，区别于传统pruning
容量保留：MoE保留了全部模型容量（所有参数仍在），只是推理时选择性激活——理论上比pruning永久删除参数更优
在FLUX.1上验证：在目前最强的开源T2I模型之一上实际验证，实用价值高
与Dynamic-DINO的MoE思路异曲同工：都是将dense模型转为MoE以支持稀疏推理，但Dense2MoE面向生成模型，Dynamic-DINO面向检测模型

局限性 / 可改进方向¶

MoE的并行推理需要工程优化（顺序循环各专家较慢）
蒸馏训练仍需一定计算资源
未探索与步骤蒸馏（如SANA-Sprint）的结合——MoE减参数×步骤蒸馏减步数可能实现更极致加速
仅在FLUX.1上验证，SD3/SANA等其他架构未测试

与相关工作的对比¶

vs. Dynamic-DINO：Dynamic-DINO在OV检测器的decoder用MoE；Dense2MoE在DiT的FFN用MoE——方向类似但应用不同
vs. SANA-Sprint：SANA-Sprint通过蒸馏减少推理步数；Dense2MoE通过MoE减少每步的计算量——两者正交可叠加
vs. 传统pruning：Dense2MoE保留模型容量只减激活参数，pruning直接删除参数——在高压缩比下Dense2MoE显著更优

启发与关联¶

Dense-to-MoE转换范式可以推广到视频DiT——视频模型参数更大，稀疏化需求更迫切
与REPA-E结合：端到端训练的VAE+MoE DiT可能进一步提升效率

评分¶

新颖性: ⭐⭐⭐⭐ 首次在DiT上做dense-to-MoE，Taylor初始化+MoB设计有创意
实验充分度: ⭐⭐⭐⭐ FLUX.1实际验证，与pruning全面对比
写作质量: ⭐⭐⭐⭐ 方法pipeline清晰
价值: ⭐⭐⭐⭐ 为大型DiT的高效部署提供了新的技术路径