BiGain: Unified Token Compression for Joint Generation and Classification¶
会议: CVPR 2026
arXiv: 2603.12240
代码: 有 (https://github.com/Greenoso/BiGain)
领域: 模型压缩 / 扩散模型
关键词: token压缩, 频域分离, 扩散模型加速, 分类, 生成
一句话总结¶
提出BiGain——一个训练免的token压缩框架,通过频域分离(保留高频细节+低中频语义),在扩散模型加速时同时保持生成质量和分类能力。70% token合并下分类精度+7.15%且FID反而更好。
背景与动机¶
扩散模型的token合并/下采样方法(如ToMe)是主流加速手段,但有一个被忽视的问题:这些方法只优化生成质量,完全忽视了判别能力。加速后的模型做图像分类时精度大幅下降。这是因为现有压缩方法在合并token时破坏了对分类至关重要的语义特征。需要一种"两全其美"的token压缩方案。
核心问题¶
如何在压缩扩散模型token的同时,既保持生成质量(FID不降)又保持甚至提升分类精度?核心发现是:生成和分类依赖不同频段的特征——生成需要高频细节(边缘/纹理),分类需要低中频语义(物体结构/类别信息)。压缩必须同时保留两者。
方法详解¶
整体框架¶
BiGain是一个训练免、即插即用的框架,直接应用于已有扩散模型(DiT或U-Net backbone),不修改权重。它在每个attention层的token合并和KV下采样步骤中,注入频域感知的决策逻辑。
关键设计¶
- Laplacian-gated Token Merging: 先用Laplacian滤波器计算每个token的频谱特征——频谱平滑的token(背景/平坦区域)允许合并,高对比度的token(边缘/纹理/物体边界)禁止合并。直觉就是:只合并"无聊"的token,保留"有趣"的token。Laplacian门控提供了一个硬性的频域保护机制。
- Interpolate-Extrapolate KV Downsampling: 对attention的Key和Value做下采样时,不是简单平均池化或最近邻,而是在两者之间做可控的插值-外推。保持Query不变,这样attention的精度损失最小。外推系数可以调整——偏向插值保守、偏向外推激进。
- 频域平衡保留原则: 核心设计原则是"balanced spectral retention"——同时保留高频细节(为了生成)和低/中频语义(为了分类)。这是统领两个具体module的指导思想。
损失函数 / 训练策略¶
无需训练。所有操作都是确定性的规则,基于token的频谱特征做决策。这意味着零部署成本——拿任何扩散模型,直接套BiGain就能用。
实验关键数据¶
| 数据集 | 设置 | 指标 | BiGain | 无BiGain | 变化 |
|---|---|---|---|---|---|
| ImageNet-1K | 70% merge, SD2.0 | 分类Acc | +7.15% | baseline | 大幅提升 |
| ImageNet-1K | 70% merge, SD2.0 | FID | -0.34 (改善1.85%) | baseline | 同时改善 |
| ImageNet-100 | 70% merge | 分类Acc | 提升 | baseline | 一致 |
| COCO-2017 | 多种backbone | 生成质量 | 保持/改善 | baseline | 一致 |
消融实验要点¶
- Laplacian门控是分类提升的主要贡献——去掉它分类掉点最多
- IE KV下采样的外推系数敏感性中等——存在一个sweet spot
- 在DiT和U-Net backbone上效果一致——说明方法的通用性
亮点 / 我学到了什么¶
- 🔥 频率分离是token压缩的核心设计原则 — 这个洞察可以推广到所有视觉模型的token压缩
- "少即是多":70%合并反而提升了分类 — 说明大量token是噪声,去掉反而更好
- Laplacian门控的简洁优雅——用经典图像处理工具解决深度学习问题
- 训练免=部署零成本 — 立即可用
局限性 / 可改进方向¶
- 仅在扩散模型上验证,未推广到autoregressive VLM — 但频域思路应该可迁移
- 频率分离的强度是固定的,缺乏自适应调节 — 不同图像可能需要不同的频域保护策略
- → 直接关联idea:
task_aware_token_compression.md— 将此推广到VLM多任务场景 - → 与
attention_aware_quant.md的频域分析思路相通
与相关工作的对比¶
- vs ToMe: ToMe按余弦相似度合并,BiGain按频域特征合并——ToMe会合并频率不同但嵌入相似的token,破坏细节
- vs 随机token dropping: BiGain的Laplacian门控有明确的保留/丢弃标准,不是盲目丢弃
- vs 重新训练的压缩方法: BiGain零额外训练成本,立即部署
与我的研究方向的关联¶
- 🔥
task_aware_token_compression.md— BiGain是其直接先驱,频域分离的idea可直接借用 attention_aware_quant.md— 频域分析思路共通sparse_neural_operator_dense.md— 频域稀疏化的另一个实例- 对我的5080部署场景直接有用——70% token减少 = 显著加速
评分¶
- 新颖性: ⭐⭐⭐⭐ 频域分离做token压缩是新角度,但单独的merging/downsampling不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 多backbone+多数据集+详细消融,很扎实
- 写作质量: ⭐⭐⭐⭐⭐ 故事线清晰,从问题到洞察到解决方案一气呵成
- 对我的价值: ⭐⭐⭐⭐⭐ 与我的token压缩idea直接相关,频域思路可借用