跳转至

ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation

会议: CVPR 2025
arXiv: 2603.10188
代码: sof-il/ARCHE
领域: 模型压缩 / 学习型图像压缩
关键词: 学习型图像压缩, 自回归熵模型, Hyperprior, Squeeze-and-Excitation, 残差预测

一句话总结

提出ARCHE端到端学习型图像压缩框架,在统一概率架构中整合分层Hyperprior、掩码空间自回归上下文、通道条件化和SE激励通道重校准,无需Transformer或循环组件,在Kodak上相对Ballé基线BD-Rate降低约48%,相对VVC Intra降低约5.6%,仅95M参数和222ms解码时间。

研究背景与动机

领域现状

学习型图像压缩已从固定变换算法演进到端到端可训练架构。变分自编码器(VAE)框架下,分析变换、熵模型和率失真权衡可联合学习。Ballé等人的Hyperprior模型、Minnen等人的自回归+Hyperprior联合模型、Minnen & Singh的通道式自回归模型是重要里程碑。

现有痛点

  • 计算代价与性能的矛盾:基于注意力/Transformer的框架视觉效果优秀但部署困难,推理慢
  • 顺序解码瓶颈:序列化熵模型(如ConvLSTM)限制并行处理,推理速度慢
  • 单一建模方式的局限:纯空间或纯通道自回归各有不足,需要混合方案

核心矛盾

模型表达力、参数效率与实际可行性之间难以平衡。复杂模型(Transformer、循环网络)性能好但推理慢;简单模型快但压缩效率不足。

本文要解决什么

在保持卷积架构高效性的前提下,通过更好的依赖关系建模提升压缩性能,使全卷积架构达到接近SOTA的率失真性能。

切入角度

不追求更大更复杂的模型,而是深化熵估计、上下文依赖捕获和自适应特征重校准之间的交互。

核心idea

将分层、空间和通道先验统一在单一概率框架中,结合SE激励和残差细化增强隐表示质量——"不靠增加架构深度,而靠更好理解依赖建模"。

方法详解

整体框架

基于VAE结构:分析变换 \(g_a\) → 量化 → 熵编码(Hyperprior + 掩码上下文 + 通道条件化)→ 算术解码 → 合成变换 \(g_s\)。隐表示分为10个切片顺序解码,每个切片含SE激励和LRP残差预测。

关键设计1:掩码自回归上下文模型 (Masked PixelCNN)

  • 做什么:在隐空间中建模细粒度局部空间相关性
  • 核心思路:使用PixelCNN的掩码卷积替代ConvLSTM,Type A掩码排除当前像素及之后位置,Type B包含当前像素。多层堆叠扩大感受野,sigmoid非线性保持因果结构
  • 设计动机:ConvLSTM需维护隐状态实现因果性,计算昂贵且训练不稳定;掩码卷积直接通过掩码保证因果性,可在空间维度上并行计算,显著提速

关键设计2:通道条件化 + Squeeze-and-Excitation

  • 做什么:捕获通道间残余相关性,自适应重校准通道响应
  • 核心思路
  • 通道条件化:解码第c个通道时,利用前(c-1)个通道的特征进行条件化
  • SE块:squeeze步骤通过全局平均池化汇总每通道统计 \(s = \frac{1}{HW}\sum Y_{i,j}\);excitation步骤学习通道注意力权重 \(w = \text{sig}(W_2 \cdot \text{relu}(W_1 \cdot s))\)
  • 设计动机:分析变换输出的通道不是统计独立的,不同通道编码互补的结构/纹理信息。通道间依赖通常比空间依赖更平滑,模块可以很轻量

关键设计3:隐残差预测 (LRP)

  • 做什么:估计并补偿量化后的残差误差
  • 核心思路:对第m个切片预测修正项 \(\hat{y}'_m = \hat{y}_m + \lambda_{LRP} \cdot \text{softsign}(r_m)\),其中 \(\lambda_{LRP}\) 为可学习缩放因子
  • 设计动机:量化不可避免引入噪声,Hyperprior和上下文模型无法完全修正;softsign替代tanh提供更平滑梯度和有界输出,训练更稳定

损失函数/训练策略

  • 率失真损失:\(L = R + \lambda D\),D为MSE
  • 8个λ值 {0.001, 0.005, 0.007, 0.01, 0.03, 0.05, 0.07, 0.1} 分别训练
  • Adam优化器,学习率 \(10^{-4}\),400 epochs,batch size 8
  • 训练数据:CLIC数据集,随机256×256裁剪
  • 隐表示深度320,分10个切片,Hyperprior深度192,SE降维比16

实验关键数据

主实验:Kodak BD-Rate (PSNR)

方法 BD-Rate vs Ballé BD-Rate vs VVC
Minnen et al. -8.00% +90.61%
Minnen & Singh -16.28% +63.55%
WeConvene -6.92% +92.47%
Iliopoulou et al. (前作) -24.22% +30.19%
ARCHE (Ours) -48.01% -5.61%

Tecnick BD-Rate (PSNR)

方法 BD-Rate vs Ballé BD-Rate vs VVC
Minnen et al. -8.81% +79.04%
Minnen & Singh -13.99% +50.32%
ARCHE (Ours) -44.89% -10.28%

计算复杂度对比

方法 参数量 解码时间/图
Ballé et al. 11.7M 25 ms
Minnen et al. 95.8M 591 ms
Minnen & Singh 121.7M 249 ms
Iliopoulou et al. 124.3M 265 ms
ARCHE 95.4M 222 ms

消融实验

变体 效果
切片数=2 BD-Rate节省约5%
切片数=10 BD-Rate节省超过11% (选为最终配置)
去掉掩码上下文 (no MCM) 性能显著下降
去掉自回归先验 (no AR) 性能下降最大(退化为纯Hyperprior)
去掉SE模块 (no SE) 低比特率下质量中等下降

关键发现

  1. 超越VVC Intra:ARCHE在Kodak上BD-Rate比VVC Intra低5.61%,在Tecnick上低10.28%
  2. 相对前作提升:vs Iliopoulou et al.,Kodak BD-Rate从-24.22%提升到-48.01%,主要归功于掩码上下文模型替换ConvLSTM + SE模块
  3. 参数效率优势:95.4M参数比Minnen & Singh (121.7M)少22%,解码速度更快
  4. 各模块互补:消融证实掩码上下文、自回归先验、SE块各自贡献独特且互补的改进
  5. 切片数=10为最优权衡点:超过10后增益递减

亮点与洞察

  1. "不需要Transformer也能超VVC":纯卷积架构通过精心设计的熵建模组合达到SOTA,挑战了"更大更复杂才更好"的观念
  2. 掩码卷积替代ConvLSTM:保持因果性的同时大幅提升并行度和推理速度,是对前作的关键改进
  3. 多层次先验的系统性整合:Hyperprior(全局) + 掩码上下文(局部空间) + 通道条件化(通道间) + SE(自适应通道重要性) 形成完整的概率建模链
  4. softsign替代tanh的小技巧:LRP中使用softsign提供更平滑梯度,有助于训练稳定性
  5. 开源代码:提供GitHub代码仓库,便于复现

局限性 / 可改进方向

  1. 仅优化MSE:未使用感知损失(LPIPS等),低比特率的感知质量可能仍有提升空间
  2. 顺序解码仍存在:掩码卷积比ConvLSTM快但仍非完全并行,未来可探索块级并行上下文预测
  3. 训练集较小:仅使用CLIC数据集训练,未在大规模多样化数据上验证
  4. 单GPU训练:RTX 3080 11GB,可能限制了模型规模和训练效率的进一步优化
  5. 未针对特定任务优化:如分类、分割等下游任务的压缩-分析联合优化
  6. 切片间依赖引入延迟:10个切片的顺序解码仍是推理速度的瓶颈

相关工作与启发

  • 与Ballé Hyperprior的关系:在其基础上增加了空间自回归、通道条件化和SE激励,BD-Rate相对改善48%
  • 与Minnen & Singh通道式AR的区别:ARCHE同时使用空间和通道自回归,而Minnen & Singh仅用通道维度AR换取并行性
  • 与Transformer方案的定位:Liu等人的CNN-Transformer混合codec性能强但计算昂贵,ARCHE证明纯卷积方案仍具竞争力
  • 与WeConvene小波方法的比较:WeConvene在Kodak上BD-Rate仅-6.92% vs Ballé,远低于ARCHE的-48.01%
  • 对实用化部署的启发:证明在效率约束下,精心设计的概率建模比堆叠参数更重要

评分

  • 新颖性: ⭐⭐⭐ (各组件非首创,但整合方式和SE+掩码卷积的组合有新意)
  • 实验充分度: ⭐⭐⭐⭐ (Kodak+Tecnick双数据集,完整消融,计算复杂度分析,视觉对比)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,相关工作全面,公式推导完整)
  • 价值: ⭐⭐⭐⭐ (证明了卷积架构的压缩潜力,超越VVC Intra具有里程碑意义)