ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation¶

会议: CVPR 2025
arXiv: 2603.10188
代码: sof-il/ARCHE
领域: 模型压缩 / 学习型图像压缩
关键词: 学习型图像压缩, 自回归熵模型, Hyperprior, Squeeze-and-Excitation, 残差预测

一句话总结¶

提出ARCHE端到端学习型图像压缩框架，在统一概率架构中整合分层Hyperprior、掩码空间自回归上下文、通道条件化和SE激励通道重校准，无需Transformer或循环组件，在Kodak上相对Ballé基线BD-Rate降低约48%，相对VVC Intra降低约5.6%，仅95M参数和222ms解码时间。

研究背景与动机¶

领域现状¶

学习型图像压缩已从固定变换算法演进到端到端可训练架构。变分自编码器(VAE)框架下，分析变换、熵模型和率失真权衡可联合学习。Ballé等人的Hyperprior模型、Minnen等人的自回归+Hyperprior联合模型、Minnen & Singh的通道式自回归模型是重要里程碑。

现有痛点¶

计算代价与性能的矛盾：基于注意力/Transformer的框架视觉效果优秀但部署困难，推理慢
顺序解码瓶颈：序列化熵模型（如ConvLSTM）限制并行处理，推理速度慢
单一建模方式的局限：纯空间或纯通道自回归各有不足，需要混合方案

核心矛盾¶

模型表达力、参数效率与实际可行性之间难以平衡。复杂模型（Transformer、循环网络）性能好但推理慢；简单模型快但压缩效率不足。

本文要解决什么¶

在保持卷积架构高效性的前提下，通过更好的依赖关系建模提升压缩性能，使全卷积架构达到接近SOTA的率失真性能。

切入角度¶

不追求更大更复杂的模型，而是深化熵估计、上下文依赖捕获和自适应特征重校准之间的交互。

核心idea¶

将分层、空间和通道先验统一在单一概率框架中，结合SE激励和残差细化增强隐表示质量——"不靠增加架构深度，而靠更好理解依赖建模"。

方法详解¶

整体框架¶

基于VAE结构：分析变换 \(g_a\) → 量化 → 熵编码（Hyperprior + 掩码上下文 + 通道条件化）→ 算术解码 → 合成变换 \(g_s\)。隐表示分为10个切片顺序解码，每个切片含SE激励和LRP残差预测。

关键设计1：掩码自回归上下文模型 (Masked PixelCNN)¶

做什么：在隐空间中建模细粒度局部空间相关性
核心思路：使用PixelCNN的掩码卷积替代ConvLSTM，Type A掩码排除当前像素及之后位置，Type B包含当前像素。多层堆叠扩大感受野，sigmoid非线性保持因果结构
设计动机：ConvLSTM需维护隐状态实现因果性，计算昂贵且训练不稳定；掩码卷积直接通过掩码保证因果性，可在空间维度上并行计算，显著提速

关键设计2：通道条件化 + Squeeze-and-Excitation¶

做什么：捕获通道间残余相关性，自适应重校准通道响应
核心思路：
通道条件化：解码第c个通道时，利用前(c-1)个通道的特征进行条件化
SE块：squeeze步骤通过全局平均池化汇总每通道统计 \(s = \frac{1}{HW}\sum Y_{i,j}\)；excitation步骤学习通道注意力权重 \(w = \text{sig}(W_2 \cdot \text{relu}(W_1 \cdot s))\)
设计动机：分析变换输出的通道不是统计独立的，不同通道编码互补的结构/纹理信息。通道间依赖通常比空间依赖更平滑，模块可以很轻量

关键设计3：隐残差预测 (LRP)¶

做什么：估计并补偿量化后的残差误差
核心思路：对第m个切片预测修正项 \(\hat{y}'_m = \hat{y}_m + \lambda_{LRP} \cdot \text{softsign}(r_m)\)，其中 \(\lambda_{LRP}\) 为可学习缩放因子
设计动机：量化不可避免引入噪声，Hyperprior和上下文模型无法完全修正；softsign替代tanh提供更平滑梯度和有界输出，训练更稳定

损失函数/训练策略¶

率失真损失：\(L = R + \lambda D\)，D为MSE
8个λ值 {0.001, 0.005, 0.007, 0.01, 0.03, 0.05, 0.07, 0.1} 分别训练
Adam优化器，学习率 \(10^{-4}\)，400 epochs，batch size 8
训练数据：CLIC数据集，随机256×256裁剪
隐表示深度320，分10个切片，Hyperprior深度192，SE降维比16

实验关键数据¶

主实验：Kodak BD-Rate (PSNR)¶

方法	BD-Rate vs Ballé	BD-Rate vs VVC
Minnen et al.	-8.00%	+90.61%
Minnen & Singh	-16.28%	+63.55%
WeConvene	-6.92%	+92.47%
Iliopoulou et al. (前作)	-24.22%	+30.19%
ARCHE (Ours)	-48.01%	-5.61%

Tecnick BD-Rate (PSNR)¶

方法	BD-Rate vs Ballé	BD-Rate vs VVC
Minnen et al.	-8.81%	+79.04%
Minnen & Singh	-13.99%	+50.32%
ARCHE (Ours)	-44.89%	-10.28%

计算复杂度对比¶

方法	参数量	解码时间/图
Ballé et al.	11.7M	25 ms
Minnen et al.	95.8M	591 ms
Minnen & Singh	121.7M	249 ms
Iliopoulou et al.	124.3M	265 ms
ARCHE	95.4M	222 ms

消融实验¶

变体	效果
切片数=2	BD-Rate节省约5%
切片数=10	BD-Rate节省超过11% (选为最终配置)
去掉掩码上下文 (no MCM)	性能显著下降
去掉自回归先验 (no AR)	性能下降最大（退化为纯Hyperprior）
去掉SE模块 (no SE)	低比特率下质量中等下降

关键发现¶

超越VVC Intra：ARCHE在Kodak上BD-Rate比VVC Intra低5.61%，在Tecnick上低10.28%
相对前作提升：vs Iliopoulou et al.，Kodak BD-Rate从-24.22%提升到-48.01%，主要归功于掩码上下文模型替换ConvLSTM + SE模块
参数效率优势：95.4M参数比Minnen & Singh (121.7M)少22%，解码速度更快
各模块互补：消融证实掩码上下文、自回归先验、SE块各自贡献独特且互补的改进
切片数=10为最优权衡点：超过10后增益递减

亮点与洞察¶

"不需要Transformer也能超VVC"：纯卷积架构通过精心设计的熵建模组合达到SOTA，挑战了"更大更复杂才更好"的观念
掩码卷积替代ConvLSTM：保持因果性的同时大幅提升并行度和推理速度，是对前作的关键改进
多层次先验的系统性整合：Hyperprior(全局) + 掩码上下文(局部空间) + 通道条件化(通道间) + SE(自适应通道重要性) 形成完整的概率建模链
softsign替代tanh的小技巧：LRP中使用softsign提供更平滑梯度，有助于训练稳定性
开源代码：提供GitHub代码仓库，便于复现

局限性 / 可改进方向¶

仅优化MSE：未使用感知损失(LPIPS等)，低比特率的感知质量可能仍有提升空间
顺序解码仍存在：掩码卷积比ConvLSTM快但仍非完全并行，未来可探索块级并行上下文预测
训练集较小：仅使用CLIC数据集训练，未在大规模多样化数据上验证
单GPU训练：RTX 3080 11GB，可能限制了模型规模和训练效率的进一步优化
未针对特定任务优化：如分类、分割等下游任务的压缩-分析联合优化
切片间依赖引入延迟：10个切片的顺序解码仍是推理速度的瓶颈

评分¶

新颖性: ⭐⭐⭐ (各组件非首创，但整合方式和SE+掩码卷积的组合有新意)
实验充分度: ⭐⭐⭐⭐ (Kodak+Tecnick双数据集，完整消融，计算复杂度分析，视觉对比)
写作质量: ⭐⭐⭐⭐ (结构清晰，相关工作全面，公式推导完整)
价值: ⭐⭐⭐⭐ (证明了卷积架构的压缩潜力，超越VVC Intra具有里程碑意义)