DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling¶
会议: NeurIPS 2025 (Spotlight)
arXiv: 2505.11196
代码: https://github.com/shallowdream204/DiCo
领域: 图像生成 / 扩散模型 / 高效架构
关键词: ConvNet, diffusion model, 卷积替代注意力, 通道冗余, compact channel attention, 高效生成
一句话总结¶
重新发掘卷积网络在扩散模型中的潜力——发现预训练DiT的全局自注意力主要捕获局部模式(冗余),提出用标准ConvNet模块+紧凑通道注意力构建纯卷积扩散模型DiCo,在ImageNet-256上以2.05 FID超越DiT-XL/2且速度快2.7倍。
背景与动机¶
Diffusion Transformer (DiT)展现了强大的生成能力但计算开销大。一个反直觉的发现是:分析预训练DiT的注意力模式,发现全局self-attention在大多数层实际上主要捕获的是局部pattern而非全局依赖——这意味着注意力机制在此场景中有很大冗余,可以用更高效的局部操作(如卷积)替代。但简单替换会导致性能下降,需要找到原因并解决。
核心问题¶
能否用纯卷积网络替代DiT中的Transformer实现高效且高质量的扩散建模?为什么简单替换会掉点?如何修复?
方法详解¶
整体框架¶
DiCo是一族完全由标准ConvNet模块构建的扩散模型,不使用任何self-attention操作。每个DiCo block用深度可分离卷积替代self-attention,用紧凑通道注意力解决卷积网络的通道冗余问题。
关键设计¶
-
DiT注意力冗余的发现:通过分析预训练DiT各层的注意力图,发现大部分层的注意力集中在局部邻域——全局self-attention的有效感受野实际上很小(类似卷积)。这为用卷积替代提供了理论基础。
-
通道冗余问题的定位:简单将attention替换为convolution导致性能下降的根本原因是ConvNet的通道冗余高于Transformer——ConvNet倾向于让很多通道学到相似的特征(通道间相关性高),而Transformer的attention天然促进通道多样性。
-
紧凑通道注意力(Compact Channel Attention):为解决通道冗余,引入一个轻量级的通道注意力模块,动态调整每个通道的激活权重,促进更多样化的通道特征学习。这使得ConvNet能学到与Transformer同样丰富的特征表示。
损失函数 / 训练策略¶
标准扩散训练loss(epsilon/velocity prediction),与DiT相同的训练配置。
实验关键数据¶
| 模型 | 分辨率 | FID↓ | 速度提升 |
|---|---|---|---|
| DiT-XL/2 | 256 | 2.27 | 1x |
| DiCo-XL | 256 | 2.05 | 2.7x |
| DiT-XL/2 | 512 | - | 1x |
| DiCo-XL | 512 | 2.53 | 3.1x |
- ImageNet-256上FID 2.05,超越DiT-XL/2 (2.27)
- 256分辨率2.7倍加速,512分辨率3.1倍加速
- 分辨率越高加速比越大(卷积复杂度O(n)对比attention的O(n²))
- 在MS-COCO上也展示了T2I生成潜力
消融实验要点¶
- 简单Conv替代attention:FID下降
- +紧凑通道注意力:FID恢复并超越DiT
- 通道冗余分析:ConvNet的通道相关性显著高于Transformer
- 通道注意力有效降低通道冗余,提升特征多样性
亮点¶
- NeurIPS Spotlight:挑战了"Transformer是扩散模型最优架构"的共识
- ConvNet的文艺复兴:在Transformer主导的时代证明了卷积在扩散模型中的独特优势——更高效且可以更好
- 通道冗余是关键洞察:精准定位了Conv替代Attention掉点的原因,并用轻量通道注意力解决
- 高分辨率优势更大:511分辨率3.1x加速——对高分辨率T2I应用特别有价值
- 代码开源,方便社区复现和扩展
局限性 / 可改进方向¶
- 卷积的局部性可能在需要全局建模的场景(如复杂空间关系、长距离一致性)受限
- 仅在class-conditional ImageNet和MS-COCO上验证,大规模T2I(如Laion数据)未测试
- 与MM-DiT(如FLUX/SD3的cross-modal attention)的兼容性未探索
与相关工作的对比¶
- vs. DiT:DiT用Transformer做扩散backbone;DiCo用ConvNet——同等质量下快2.7x
- vs. SANA:SANA用Linear Attention替代标准Attention加速;DiCo完全去掉Attention用Conv——从不同角度追求效率
- vs. Dense2MoE:Dense2MoE通过稀疏化减少每步计算;DiCo通过Conv替代Attention减少每步计算——正交策略可叠加
启发与关联¶
- DiCo + SANA-Sprint(步骤蒸馏)= 每步更快×步数更少 = 可能实现超实时T2I
- 通道冗余分析方法可以迁移到视频扩散模型——视频DiT的冗余可能更严重
- "ConvNet在扩散模型中的复活"可能引发新一轮架构创新
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 在Transformer主导的时代重新证明ConvNet的价值,通道冗余洞察精准
- 实验充分度: ⭐⭐⭐⭐ ImageNet-256/512+MS-COCO,效率和质量全面对比
- 写作质量: ⭐⭐⭐⭐ 从发现问题(注意力冗余)→定位原因(通道冗余)→解决(通道注意力)逻辑清晰
- 价值: ⭐⭐⭐⭐⭐ Spotlight当选,为高效扩散模型架构开辟了ConvNet新路径