BiGain: Unified Token Compression for Joint Generation and Classification¶

会议: CVPR 2025
arXiv: 2603.12240
代码: https://github.com/Greenoso/BiGain
领域: 图像生成 / 扩散模型加速
关键词: Token压缩, 扩散模型分类, 频率感知, Token合并, KV下采样

一句话总结¶

BiGain 首次将扩散模型的 token 压缩重新定义为生成+分类的双目标优化问题，提出拉普拉斯门控 token 合并（L-GTM）和插值-外推 KV 下采样（IE-KVD）两个频率感知算子，在保持生成质量同时显著提升分类准确率（ImageNet-1K 70%合并比下 Acc +7.15%，FID -0.34）。

研究背景与动机¶

领域现状：扩散模型不仅是生成主力，还被复用为分类器（逐类去噪似然评分），同一 backbone 支持生成和判别任务。
现有痛点：现有 token 压缩（ToMe、ToDo）仅优化生成质量（FID），忽略判别能力。几乎不影响生成的压缩可能严重损害分类。
核心矛盾：生成依赖低/中频全局语义，分类依赖高频细节。朴素压缩恰好移除分类最需要的结构。
本文要解决什么：设计 training-free、plug-and-play 的 token 压缩，同时保护生成和判别。
切入角度：频率分离——将中间特征映射到频率感知表示，解耦高频与低/中频。
核心idea一句话：平衡频谱保留是 token 压缩的可靠设计原则。

方法详解¶

整体框架¶

两个互补的 training-free 算子：L-GTM 用于 token 合并，IE-KVD 用于 attention K/V 下采样。兼容 DiT 和 U-Net。

关键设计¶

拉普拉斯门控 Token 合并（L-GTM）
做什么：优先合并频谱平滑 token，保留高频 token
核心思路：对隐状态做空间拉普拉斯滤波得逐位置频率分数；最低分做 destination，其余为 source，匹配合并
设计动机：标准 ToMe 不区分频率，高频 token 被优先合并损害分类
插值-外推 KV 下采样（IE-KVD）
做什么：对 K/V 做空间下采样，保持 Q 全分辨率
核心思路：在最近邻和均值池化间做可控插值/外推，分类偏近邻保高频，生成从低频到高频线性变化
设计动机：保留 Q 维持 token 精细感受野，对分类 MC 评分精度至关重要
扩散分类器兼容性
做什么：确保不破坏 diffusion classifier 的估计有效性
核心思路：两算子 timestep-local 且确定性，所有类别共享同一压缩调度

损失函数 / 训练策略¶

Training-free，无需训练。推理时直接插入注意力层。分类采用分阶段剪枝加速。

实验关键数据¶

主实验¶

方法	FLOPs 减少	Acc@1 (Pets)	vs Baseline
Baseline	-	81.03	-
ToMe	10%	72.96	-8.07
BiGain_TM	10%	78.38	-2.65
ToDo	14.2%	79.15	-1.88
BiGain_TD	14.2%	79.90	-1.13

消融实验¶

去掉 Laplacian gating：分类掉点显著
IE-KVD alpha=0.9 分类最佳，生成时 0.8到1.2 线性变化最佳
DiT 和 U-Net 最优 alpha 不同，需架构适配

关键发现¶

基线压缩对分类伤害远早于、远大于对生成的伤害
保留 Q 全分辨率是保护分类精度关键
频率平衡在两种架构、四个数据集上一致有效
ImageNet-1K 70%合并比：Acc +7.15%, FID -0.34

亮点与洞察¶

首次系统研究 token 压缩对扩散模型分类能力的影响
频率分离 insight 简洁有力——"看起来好"不等于"分类好"
两个算子都是 training-free 和 plug-and-play
实现帕累托改善而非简单权衡

局限性 / 可改进方向¶

最优参数与架构/数据集相关
拉普拉斯是手工设计的频率代理
未探索与步数减少方法的组合

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出生成+分类双目标 token 压缩
实验充分度: ⭐⭐⭐⭐ 四个数据集、两种架构全面评估
写作质量: ⭐⭐⭐⭐ 动机清晰，推导连贯
价值: ⭐⭐⭐⭐ 对双用途扩散模型部署有直接指导