BiGain: Unified Token Compression for Joint Generation and Classification¶

会议: CVPR 2026
arXiv: 2603.12240
代码: 有 (https://github.com/Greenoso/BiGain)
领域: 模型压缩 / 扩散模型
关键词: token压缩, 频域分离, 扩散模型加速, 分类, 生成

一句话总结¶

提出BiGain——一个训练免的token压缩框架，通过频域分离（保留高频细节+低中频语义），在扩散模型加速时同时保持生成质量和分类能力。70% token合并下分类精度+7.15%且FID反而更好。

扩散模型的token合并/下采样方法（如ToMe）是主流加速手段，但有一个被忽视的问题：这些方法只优化生成质量，完全忽视了判别能力。加速后的模型做图像分类时精度大幅下降。这是因为现有压缩方法在合并token时破坏了对分类至关重要的语义特征。需要一种"两全其美"的token压缩方案。

如何在压缩扩散模型token的同时，既保持生成质量（FID不降）又保持甚至提升分类精度？核心发现是：生成和分类依赖不同频段的特征——生成需要高频细节（边缘/纹理），分类需要低中频语义（物体结构/类别信息）。压缩必须同时保留两者。

BiGain是一个训练免、即插即用的框架，直接应用于已有扩散模型（DiT或U-Net backbone），不修改权重。它在每个attention层的token合并和KV下采样步骤中，注入频域感知的决策逻辑。

Laplacian-gated Token Merging: 先用Laplacian滤波器计算每个token的频谱特征——频谱平滑的token（背景/平坦区域）允许合并，高对比度的token（边缘/纹理/物体边界）禁止合并。直觉就是：只合并"无聊"的token，保留"有趣"的token。Laplacian门控提供了一个硬性的频域保护机制。
Interpolate-Extrapolate KV Downsampling: 对attention的Key和Value做下采样时，不是简单平均池化或最近邻，而是在两者之间做可控的插值-外推。保持Query不变，这样attention的精度损失最小。外推系数可以调整——偏向插值保守、偏向外推激进。
频域平衡保留原则: 核心设计原则是"balanced spectral retention"——同时保留高频细节（为了生成）和低/中频语义（为了分类）。这是统领两个具体module的指导思想。

无需训练。所有操作都是确定性的规则，基于token的频谱特征做决策。这意味着零部署成本——拿任何扩散模型，直接套BiGain就能用。

数据集	设置	指标	BiGain	无BiGain	变化
ImageNet-1K	70% merge, SD2.0	分类Acc	+7.15%	baseline	大幅提升
ImageNet-1K	70% merge, SD2.0	FID	-0.34 (改善1.85%)	baseline	同时改善
ImageNet-100	70% merge	分类Acc	提升	baseline	一致
COCO-2017	多种backbone	生成质量	保持/改善	baseline	一致