Adaptive Learned Image Compression with Graph Neural Networks¶
会议: CVPR 2026
arXiv: 2603.25316
代码: https://github.com/UnoC-727/GLIC
领域: 图学习 / 学习图像压缩
关键词: 图像压缩、GNN、双尺度采样、RMS 梯度、内容自适应连接
一句话总结¶
GLIC 把学习图像压缩里的非线性变换从固定卷积或窗口注意力,改造成由图神经网络驱动的内容自适应连接:先用双尺度图决定“连到哪里”,再用复杂度感知机制决定“连多少”,从而更好地建模局部与远程冗余,在三个标准数据集上都显著超过传统编解码器和近期 LIC 强基线。
研究背景与动机¶
学习图像压缩已经从早期卷积式 autoencoder 演化到 CNN、Transformer、Mamba 等多种主干,率失真性能不断逼近甚至超过传统编解码器。但这些方法有一个很深的共同假设:邻接关系大多是预先固定的。卷积把每个像素绑在一个固定 k x k 邻域里,窗口注意力把交互限制在预设窗口中,哪怕有移位或形变,本质上仍然是“邻域先定好,再在里面做加权”。
问题在于,图像压缩最关心的是冗余,而冗余既不均匀,也不一定局限在局部欧氏邻域。平滑区域冗余很高,边缘和纹理区域冗余低;一些远距离但结构相似的区域在压缩时也非常值得相互参考。如果仍用固定连接模式,模型就会把很多不相关的近邻硬连起来,却遗漏一些真正有压缩价值的远程相关区域。
因此作者把核心矛盾归纳为两件事:
- where to connect:哪些位置应该建立信息交互。
- how much to connect:不同像素该分配多少连接预算。
CNN 和窗口注意力在这两个维度上都太刚性。于是作者转向 GNN,希望利用其动态图连接能力,让压缩模型根据内容复杂度和相似性自动决定连接模式。这个想法不是简单“把卷积换成图网络”,而是明确围绕压缩中的空间冗余建模来设计候选邻域、度分配和图聚合。
方法详解¶
整体框架¶
GLIC 建立在标准 VAE 式学习压缩框架上,仍然包含分析变换 g_a、合成变换 g_s 和超先验熵模型。作者没有改压缩框架的大结构,而是把非线性变换块重新设计成图驱动的 Graph-based Feature Aggregation (GFA)。
在网络前半段,作者仍使用轻量卷积块提取浅层特征,原因是高分辨率浅层特征上直接做图构建代价太大。到了后两阶段,特征图空间分辨率下降,作者将传统卷积/注意力块替换为 GFA-Local 与 GFA-Global 的串联结构,让模型在压缩编码和解码过程中都能利用动态邻接关系。
这个设计说明作者很务实:不是为了“纯 GNN”而纯 GNN,而是在最能发挥收益的层级上使用图操作。
关键设计¶
-
双尺度候选采样:
- 功能:给每个像素节点提供同时包含局部和远程的信息候选集。
- 核心思路:作者为每个节点构造两个候选集合。局部候选集来自固定大小的局部窗口,保留精细纹理与边界结构;全局候选集来自按步长采样的 mesh-grid,全图范围内稀疏取点,为远距离冗余建模提供低成本入口。最终候选集是二者并集。
- 设计动机:如果只用局部图,会丢掉远程相关性;如果只用全局稀疏图,又无法处理低层细节。双尺度图把“近处看细节”和“远处找相似”同时纳入,而且复杂度远低于全局全连接注意力。
-
复杂度感知的自适应连接度:
- 功能:让不同位置分到不同数量的图连接预算,而不是每个节点强制同度。
- 核心思路:作者用 Sobel 算子在每个通道上计算梯度,并通过 RMS pooling 形成复杂度分数。梯度越大,说明局部结构越复杂、冗余越低,这类位置需要更多邻居帮助建模和消除冗余。随后把全图总边预算
B = N * d_bar按复杂度比例分配到每个节点,得到每个节点目标度数d_i*。 - 设计动机:图像压缩不是分类任务,不需要每个位置都拥有相同建模容量。平滑区域少连一点并不会伤害重建,反而能让模型把更多预算留给难压缩的边缘和纹理区域。
-
基于相似度阈值的图构建与 GFA 聚合:
- 功能:在候选集中进一步选出最值得连的邻居,并完成消息传递聚合。
- 核心思路:对每个节点,作者计算其与候选节点之间的余弦相似度,再通过二分搜索寻找一个阈值,使保留下来的邻居数量尽量贴近目标度数
d_i*。随后在得到的有向图上做图特征聚合,先执行局部图聚合,再执行全局图聚合。 - 设计动机:双尺度采样解决了“有哪些可能值得连的点”,而二分阈值搜索解决了“最终到底选谁”。这种分步设计比直接在全图上做软注意力更可控,也更贴近压缩里需要的稀疏结构。
损失函数 / 训练策略¶
训练目标仍采用标准率失真优化,即最小化码率项与失真项之和。作者分别在 PSNR 和 MS-SSIM 设定下训练模型,并用 BD-rate、BD-PSNR 进行比较。
这一点很重要,因为它说明 GLIC 的收益不是来自改变评价协议,而是确实在同一压缩目标下得到更优的变换表示。
实验关键数据¶
主实验¶
作者在 Kodak、Tecnick、CLIC 三个标准数据集上对比 VTM-9.1 和一系列近期 LIC 强基线。最核心结果如下。
| 指标 | Kodak | Tecnick | CLIC |
|---|---|---|---|
| GLIC 相对 VTM-9.1 的 BD-rate | -19.29% | -21.69% | -18.71% |
| 相对 FTIC 的 BD-PSNR 增益 | +0.26 dB | +0.38 dB | +0.37 dB |
| 相对 TCM-L 的 BD-PSNR 增益 | +0.39 dB | +0.56 dB | +0.46 dB |
这些结果说明 GLIC 并不是只在某一个数据集上偶然占优,而是在高分辨率 Tecnick、2K 的 CLIC 以及经典 Kodak 上都稳定收益,尤其 Tecnick 上 21.69% 的 BD-rate 降低很有说服力。
消融实验¶
论文对复杂度评分与通道池化策略做了很细的消融,这一部分很好地支撑了“RMS Sobel 梯度”不是拍脑袋选择。
| 评分策略 | 通道池化 | Kodak | CLIC | Tecnick |
|---|---|---|---|---|
| None | None | -16.97 | -16.21 | -18.21 |
| Local Entropy | RMS | -17.05 | -17.01 | -18.97 |
| Rescaling Residual | RMS | -17.67 | -17.03 | -19.68 |
| Rescaling Residual | Mean | -18.23 | -17.82 | -20.39 |
| Sobel Gradient | Mean | -18.02 | -17.42 | -20.62 |
| Sobel Gradient | RMS | -19.29 | -18.71 | -21.69 |
关键发现¶
- 双尺度图设计是成立的。论文文字分析指出,只用局部图或只用全局图都会明显退化,其中仅全局图最差,说明压缩确实需要同时保留局部精细结构和远程冗余建模。
- 复杂度感知连接度也很关键。若完全取消复杂度评分,模型退化为更接近固定
kNN的 GNN,三个数据集都比完整设计差。 - Sobel + RMS 优于 mean pooling,说明在压缩里更强调大梯度区域的显著性是合理的。RMS 对强边缘更敏感,正好能把预算分配给难压缩区域。
- 除了压缩率,论文还强调效率。相对 MambaIC,GLIC 在参数量、FLOPs、解码延迟和显存上都有明显下降,说明图结构没有把系统拖进“性能好但太慢”的尴尬境地。
亮点与洞察¶
- 本文真正有价值的地方不是“GNN 首次用于 LIC”这个 headline,而是把 GNN 用在了压缩最关心的两个问题上:连接范围和连接密度。这个问题分解非常自然,也很符合压缩里的物理直觉。
where和how much的解耦值得记住。很多架构设计把所有适应性都塞进一个 attention 模块里,而 GLIC 明确先做候选采样,再做预算分配,模块职责清楚,分析也更容易。- 作者没有把 GNN 全面替换所有层,而是在后两阶段使用 GFA,在前面保留轻量卷积块。这种混合式设计工程感很强,比纯理论上的“全图网络”更落地。
- 论文对 ERF 的分析也很有意思。作者展示 GLIC 在不同内容位置会产生明显不同的有效感受野,这正是内容自适应连接真正起作用的证据。
局限与展望¶
- 图构建仍然需要计算候选相似度并做二分阈值搜索,这部分虽然比全局注意力便宜,但在更高分辨率或更严格实时场景里仍可能成为瓶颈。
- 当前工作主要聚焦静态图像压缩。若扩展到视频压缩,图节点还会增加时间维,图构建与同步更新会复杂得多。
- 连接预算依赖手工定义的复杂度评分。虽然 Sobel-RMS 很有效,但仍属于人为设计特征,未来可尝试学习式复杂度估计器。
- 模型主要与 VTM 和学术 LIC 基线比较。面向工业落地时,还需要与更完整的软件和硬件编码链路评估端到端收益。
- 另一个自然方向是把 GFA 与更强的熵模型结合。本文主要在变换网络上发力,若后续能把图结构进一步引入上下文熵估计,可能还有空间。
相关工作与启发¶
- vs CNN-based LIC:卷积最大的优势是高效,但固定邻域太刚。GLIC 表明,在压缩这类强依赖冗余关系的任务上,固定欧氏邻域并不总是最优归纳偏置。
- vs Window Transformer LIC:窗口注意力相比卷积扩大了表达力,但本质上仍是块状局部交互。GLIC 的全局稀疏采样解决了“窗口之外也想连”的问题。
- vs 形变卷积压缩方法:形变卷积能动态偏移,但偏移数量和范围仍受限制;图连接则在连接集合上更自由。
- 对我的启发是,在低层视觉任务里,图网络最有价值的地方不是追求抽象语义,而是处理空间关系的非均匀性。压缩、去噪、超分这类任务以后可能都可以沿这个思路重新设计邻接结构。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把 GNN 真正嵌入 LIC 的率失真建模逻辑中,而不是简单替代模块,思路很扎实。
- 实验充分度: ⭐⭐⭐⭐ 三个标准数据集、主结果、复杂度分析和多组消融都到位,但更多下游部署评测仍可补充。
- 写作质量: ⭐⭐⭐⭐ 问题拆分清楚,方法和实验之间对应关系强。
- 价值: ⭐⭐⭐⭐⭐ 为学习图像压缩提供了新的建模范式,后续影响力很可能不止停留在图像压缩本身。
相关论文¶
- [AAAI 2026] Adaptive Riemannian Graph Neural Networks
- [AAAI 2026] Beyond Fixed Depth: Adaptive Graph Neural Networks for Node Classification Under Varying Homophily
- [CVPR 2026] Hyperbolic Busemann Neural Networks
- [AAAI 2026] Self-Adaptive Graph Mixture of Models
- [ICLR 2026] Are We Measuring Oversmoothing in Graph Neural Networks Correctly?