SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models¶
会议: CVPR2026 arXiv: 2602.18993 代码: jiwoogit/SeaCache 领域: 图像生成 关键词: 扩散模型加速, 缓存策略, 频谱演化, 频域滤波, 无训练加速
一句话总结¶
提出 SeaCache,一种基于频谱演化感知(SEA)滤波器的无训练动态缓存策略,通过在频域中分离信号与噪声分量来测量时间步间的冗余度,显著提升扩散模型推理的延迟-质量权衡。
背景与动机¶
- 推理延迟瓶颈:扩散模型和整流流模型需要数十到数百步的迭代去噪,导致用户端应用延迟严重。
- 现有加速手段的局限:蒸馏、量化、高效注意力等方法虽有效,但引入额外训练开销和对特定任务/数据的依赖。
- 缓存加速的潜力:缓存复用相邻时间步的中间特征可减少前向传播次数,且无需重训练,是一条互补路线。
- 静态 vs 动态调度:早期方法(如 DeepCache)采用固定间隔缓存,无法适应输入多样性;TeaCache/DiCache 引入动态调度但仍在原始特征空间度量距离。
- 忽视频谱演化:扩散去噪过程存在明确的频谱演化——早期时间步建立低频结构,后期时间步精炼高频细节,但现有缓存策略将所有频谱分量一视同仁。
- 内容与噪声纠缠:原始特征距离将承载内容的信号分量和随机噪声分量混合在一起,导致缓存决策受高频噪声干扰,偏离最优调度。
方法详解¶
整体框架¶
SeaCache 在现有动态缓存策略的距离度量前插入一个频谱演化感知(SEA)滤波步骤。给定相邻时间步的输入特征 \(I_t\) 和 \(I_{t+1}\),先经 FFT 变换到频域,乘以时间步相关的 SEA 滤波器 \(G_t^{\text{norm}}\),再经 iFFT 返回空间域,最后在滤波后的特征上计算相对 \(\ell_1\) 距离。该距离累积超过阈值 \(\delta\) 时触发刷新,否则复用缓存输出。
SEA 滤波器设计¶
- 理论基础:从线性最小均方误差(MMSE)去噪器出发,推导最优线性去噪滤波器的频率响应 \(G_t(f) = a_t S_x(f) / (a_t^2 S_x(f) + b_t^2)\),呈 Wiener 滤波器形式。
- 频谱演化建模:假设自然图像功率谱服从 \(1/f\) 幂律分布,滤波器在早期时间步主要通过低频,后期逐步纳入高频,与扩散去噪的频谱演化一致。
- 增益归一化:原始 \(G_t(f)\) 的平均增益随时间步变化,导致跨时间步距离不可比。通过归一化因子 \(\nu_t\) 使 \(G_t^{\text{norm}}(f)\) 在径向频率上具有单位平均增益,稳定滤波后特征的能量。
- 滤波操作:\(\mathcal{P}(G_t^{\text{norm}}, I_t) = \text{iFFT}(G_t^{\text{norm}}(f) \odot \text{FFT}(I_t))\),逐通道在空间轴(图像)或时空轴(视频)上应用。
频谱感知动态缓存¶
- 输入侧代理:直接使用滤波后输出特征不可行(需完整前向),因此用滤波后输入特征 \(\mathcal{P}(G_t^{\text{norm}}, I_t)\) 作为代理。实验验证 SEA 滤波后输入距离与 SEA 滤波后输出距离高度吻合。
- 距离度量:\(\widetilde{\Delta}_t = \text{L1}_{\text{rel}}(\mathcal{P}(G_t^{\text{norm}}, I_t), \mathcal{P}(G_{t+1}^{\text{norm}}, I_{t+1}))\)
- 累积阈值规则:沿用 TeaCache 的累积距离刷新逻辑不变,仅替换距离度量。
- 即插即用:无需修改网络架构或采样器,仅在距离计算前插入一步 FFT-滤波-iFFT。
实验关键数据¶
文本到图像(FLUX.1-dev,50步,DrawBench 200 prompts)¶
| 方法 | 延迟(s) | TFLOPs | PSNR↑ | LPIPS↓ | SSIM↑ |
|---|---|---|---|---|---|
| Original | 20.9 | 2976 | – | – | – |
| TeaCache (δ=0.3) | 11.4 | 1547 | 20.76 | 0.211 | 0.810 |
| TaylorSeer (S=3) | 9.8 | 1191 | 22.78 | 0.163 | 0.828 |
| SeaCache (δ=0.3) | 9.4 | 1098 | 26.29 | 0.106 | 0.893 |
| TeaCache (δ=0.6) | 7.1 | 892 | 17.21 | 0.348 | 0.714 |
| TaylorSeer (S=5) | 7.5 | 834 | 19.97 | 0.236 | 0.762 |
| SeaCache (δ=0.6) | 6.4 | 773 | 21.33 | 0.226 | 0.798 |
文本到视频(HunyuanVideo / Wan2.1 1.3B,50步,VBench 944 prompts)¶
- HunyuanVideo ~50%:SeaCache PSNR 32.39 vs TeaCache 23.40(+9 dB),延迟 90.8s vs 98.5s
- HunyuanVideo ~30%:SeaCache PSNR 26.46 vs TeaCache 20.42(+6 dB),延迟 58.1s vs 64.4s
- Wan2.1 ~50%:SeaCache PSNR 26.60 vs TeaCache 20.84(+5.8 dB),延迟 83.9s vs 86.6s
- Wan2.1 ~30%:SeaCache PSNR 21.78 vs TeaCache 18.88(+2.9 dB),延迟 56.6s vs 63.6s
消融实验¶
| 变体 | 效果 |
|---|---|
| SEA 滤波器(完整) | 最优 PSNR-刷新率权衡 |
| 1−SEA(互补滤波) | 略差,追踪噪声分量不如信号分量有效 |
| 无增益归一化 | PSNR 下降,跨时间步距离偏置 |
| 静态低通滤波(LPF 30%) | 明显差于 SEA,说明时间步相关的频谱演化至关重要 |
亮点¶
- 理论驱动设计:从 Wiener 最优滤波器推导出时间步相关的频谱演化滤波器,理论与实践紧密结合。
- 即插即用:仅替换距离度量中的一步滤波操作,可直接嵌入 TeaCache、DiCache 等现有缓存方法。
- 跨模型泛化:在 FLUX(图像)、HunyuanVideo 和 Wan2.1(视频)上均一致优于基线。
- 自适应早期刷新:自然将更多计算预算分配给早期时间步,无需手动设置"前 N 步必计算"的超参数。
- 显著的 PSNR 提升:尤其在 HunyuanVideo 上 +9 dB 的 PSNR 提升非常突出。
局限性 / 可改进方向¶
- 线性去噪器假设:SEA 滤波器基于最优线性去噪器推导,实际扩散模型是高度非线性的,滤波器仅是近似。
- 功率谱先验固定:假设自然 \(1/f\) 功率谱,对非自然图像(如文字、图表)的适用性待验证。
- 仅解决"何时复用":未探索"如何复用"的频谱感知策略(如不同频带差异化复用)。
- 评测以重建指标为主:PSNR/LPIPS/SSIM 衡量与全计算参考的偏差,对下游感知质量(FID、用户偏好)的报告相对有限(仅 CycleReward)。
- FFT 额外开销:虽然轻量,但 FFT/iFFT 操作在每个时间步引入额外计算,在极端加速场景下占比可能不可忽略。
与相关工作的对比¶
| 方法 | 调度类型 | 距离空间 | 频谱感知 | 训练需求 |
|---|---|---|---|---|
| DeepCache | 静态 | – | 否 | 无 |
| PAB | 静态(按块) | – | 否 | 无 |
| TeaCache | 动态 | 原始特征 | 否 | 无 |
| TaylorSeer | 动态(Taylor展开) | 原始特征 | 否 | 无 |
| DiCache | 动态(中间块) | 原始特征 | 否 | 无 |
| SeaCache | 动态 | SEA滤波特征 | 是 | 无 |
SeaCache 是首个将显式频率先验注入缓存复用决策的方法,通过在频域中重加权抑制噪声、强调内容,使缓存调度更忠实地追踪全计算轨迹。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将频谱演化先验引入缓存调度是新颖的视角,SEA 滤波器的理论推导优雅
- 实验充分度: ⭐⭐⭐⭐ — 覆盖图像和视频生成、多个模型、消融完整、plug-and-play 验证充分
- 写作质量: ⭐⭐⭐⭐ — 动机清晰、理论推导自洽、图表丰富
- 价值: ⭐⭐⭐⭐ — 即插即用且效果显著,对扩散模型部署有直接实用价值