跳转至

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

会议: CVPR 2026
arXiv: 2603.10188
代码: GitHub (有)
领域: 学习式图像压缩
关键词: 自回归熵模型, 超先验, Squeeze-and-Excitation, 残差预测, 率失真优化

一句话总结

在全卷积架构内统一层级超先验、Masked PixelCNN空间自回归、通道条件建模和SE通道激励,不使用Transformer或循环组件,以95M参数和222ms解码时间实现相对Ballé基线48% BD-Rate降低并超越VVC Intra 5.6%。

背景与动机

端到端学习式图像压缩已超越传统编解码器,但高性能方法(Transformer/注意力架构)计算量大且并行性差。基于ConvLSTM的上下文模型需跨大区域维护隐状态,严格串行解码延迟高。纯通道自回归丢失空间局部相关性,纯空间自回归有解码瓶颈。领域趋势正从追求更复杂模型转向在建模精度与计算效率之间找到实用平衡。

核心问题

如何在不依赖Transformer或循环组件的前提下,通过纯卷积架构达到SOTA率失真效率,同时参数量和推理速度可控?

方法详解

整体框架

ARCHE基于VAE框架:分析变换g_a将输入映射为潜在表示y,合成变换g_s从量化表示ŷ重建图像。熵模型采用层级设计:超先验提供全局统计→Masked PixelCNN上下文精化局部概率→通道条件捕获跨通道依赖→SE激励通道加权→LRP修正量化误差。y被分为10个切片顺序解码。

关键设计

  1. 自回归超先验+Masked PixelCNN上下文: 超分析变换h_a将y映射为侧信息z,量化后传输。超合成变换h_s从ẑ重建条件先验参数。空间自回归先验用Masked PixelCNN在光栅扫描顺序下建模p(ŷ_i|ŷ_{<i}, ẑ)。Type A掩码排除中心及之后位置,Type B包含中心。多层堆叠扩展感受野保持因果性,相比ConvLSTM训练更稳定、计算更高效
  2. 通道条件+SE激励: 解码第c通道时利用前c-1通道的特征做轻量卷积建模,p(ŷ_{i,c}|ŷ_{<i,c}, ŷ_{<c}, ẑ)将依赖空间从纯空间扩展到空间+通道。切片变换内嵌SE块:global avg pooling → FC(缩减比16) → ReLU → FC → sigmoid门控,自适应加权通道重要性
  3. 潜在残差预测(LRP): 对量化后每切片预测修正ŷ'_m = ŷ_m + λ_LRP · softsign(r_m),softsign替代tanh提供更平滑梯度,λ_LRP为可学习缩放因子,补偿量化噪声

损失函数 / 训练策略

L = R + λD,R为交叉熵码率(含z的先验贡献和y|z的条件贡献),D为MSE。CLIC数据集训练,随机256×256裁剪。8组λ∈{0.001,...,0.1}覆盖不同码率点。Adam lr=10⁻⁴,400 epochs batch=8。训练时量化用均匀加性噪声近似。潜在深度320,10切片,超先验深度192,SE缩减比16。

实验关键数据

方法 BD-Rate vs Ballé(Kodak) BD-Rate vs VVC(Kodak) 参数 解码时间
Minnen et al. -8.00% +90.61% 95.8M 591ms
Minnen & Singh -16.28% +63.55% 121.7M 249ms
WeConvene -6.92% +92.47%
Iliopoulou et al. -24.22% +30.19% 124.3M 265ms
ARCHE -48.01% -5.61% 95.4M 222ms

Tecnick数据集:ARCHE -44.89% vs Ballé, -10.28% vs VVC Intra。

消融实验要点

  • 切片数量: 2片→~5%BD-Rate增益,10片→>11%增益,再增加边际递减。10片为最佳平衡
  • 去掉全部AR组件: 退化为纯超先验模型,性能损失最大
  • 去掉Masked Context Model: 显著劣化,掩码空间上下文对局部概率估计关键
  • 去掉SE: 低比特率下中等下降,通道加权对细粒度结构保留重要
  • GMM替代单高斯: 无显著提升——ARCHE的条件建模已充分捕获潜在统计
  • Checkerboard替代PixelCNN: 训练快58%但率失真劣化(尤其低比特率),推理反慢15%;仅适合快速实验而非部署

亮点

  • 纯卷积架构超越VVC Intra且参数/速度优于多数学习式方法,证明精心设计的CNN仍有竞争力
  • 各组件贡献互补(消融证实),不是简单堆叠而是概率框架内的协同
  • 视觉对比在低比特率下展现更锐利边缘和更自然色彩过渡
  • 附录对GMM和Checkerboard变体的深入分析诚实且有价值

局限性 / 可改进方向

  • 222ms解码对实时视频仍显不足,可探索block-wise半并行解码
  • 仅优化MSE,引入感知指标(LPIPS等)可进一步提升视觉真实感
  • 未探索任务导向压缩(压缩后直接分类/分割)
  • 更高分辨率图像上的扩展性未验证

与相关工作的对比

  • vs Iliopoulou et al.[2025]前作: ARCHE用Masked PixelCNN替换LSTM上下文+增加SE激励,BD-Rate再降~24pp,参数减少29M,解码快43ms
  • vs Minnen et al.[2018]: 在联合AR+超先验基础上加入通道条件/SE/LRP,BD-Rate多降40pp,解码从591ms→222ms
  • vs WeConvene[ECCV24]: 小波域方案性能较弱(-6.92% vs Ballé),ARCHE的频域+空域联合建模更有效

启发与关联

  • "不追求更大模型而追求更好的依赖建模"的设计哲学值得借鉴
  • 多层级先验(全局/空间/通道)的互补组合方式可迁移到其他概率建模任务

评分

  • 新颖性: ⭐⭐⭐ 各组件已有前人工作,贡献在于精心融合和工程优化
  • 实验充分度: ⭐⭐⭐⭐⭐ 双数据集+6基线+完整消融+视觉对比+计算分析+附录变体
  • 写作质量: ⭐⭐⭐⭐ 方法推导详尽,表格图表丰富,附录透明
  • 价值: ⭐⭐⭐ 证明精心设计的CNN压缩仍有竞争力,对实际部署有参考