Adaptive Learned Image Compression with Graph Neural Networks¶

会议: CVPR 2026
arXiv: 2603.25316
代码: https://github.com/UnoC-727/GLIC
领域: 图学习 / 学习图像压缩
关键词: 图像压缩、GNN、双尺度采样、RMS 梯度、内容自适应连接

一句话总结¶

GLIC 把学习图像压缩里的非线性变换从固定卷积或窗口注意力，改造成由图神经网络驱动的内容自适应连接：先用双尺度图决定“连到哪里”，再用复杂度感知机制决定“连多少”，从而更好地建模局部与远程冗余，在三个标准数据集上都显著超过传统编解码器和近期 LIC 强基线。

研究背景与动机¶

学习图像压缩已经从早期卷积式 autoencoder 演化到 CNN、Transformer、Mamba 等多种主干，率失真性能不断逼近甚至超过传统编解码器。但这些方法有一个很深的共同假设：邻接关系大多是预先固定的。卷积把每个像素绑在一个固定 k x k 邻域里，窗口注意力把交互限制在预设窗口中，哪怕有移位或形变，本质上仍然是“邻域先定好，再在里面做加权”。

问题在于，图像压缩最关心的是冗余，而冗余既不均匀，也不一定局限在局部欧氏邻域。平滑区域冗余很高，边缘和纹理区域冗余低；一些远距离但结构相似的区域在压缩时也非常值得相互参考。如果仍用固定连接模式，模型就会把很多不相关的近邻硬连起来，却遗漏一些真正有压缩价值的远程相关区域。

因此作者把核心矛盾归纳为两件事：

where to connect：哪些位置应该建立信息交互。
how much to connect：不同像素该分配多少连接预算。

CNN 和窗口注意力在这两个维度上都太刚性。于是作者转向 GNN，希望利用其动态图连接能力，让压缩模型根据内容复杂度和相似性自动决定连接模式。这个想法不是简单“把卷积换成图网络”，而是明确围绕压缩中的空间冗余建模来设计候选邻域、度分配和图聚合。

方法详解¶

整体框架¶

GLIC 建立在标准 VAE 式学习压缩框架上，仍然包含分析变换 g_a、合成变换 g_s 和超先验熵模型。作者没有改压缩框架的大结构，而是把非线性变换块重新设计成图驱动的 Graph-based Feature Aggregation (GFA)。

在网络前半段，作者仍使用轻量卷积块提取浅层特征，原因是高分辨率浅层特征上直接做图构建代价太大。到了后两阶段，特征图空间分辨率下降，作者将传统卷积/注意力块替换为 GFA-Local 与 GFA-Global 的串联结构，让模型在压缩编码和解码过程中都能利用动态邻接关系。

这个设计说明作者很务实：不是为了“纯 GNN”而纯 GNN，而是在最能发挥收益的层级上使用图操作。

关键设计¶

双尺度候选采样:
- 功能：给每个像素节点提供同时包含局部和远程的信息候选集。
- 核心思路：作者为每个节点构造两个候选集合。局部候选集来自固定大小的局部窗口，保留精细纹理与边界结构；全局候选集来自按步长采样的 mesh-grid，全图范围内稀疏取点，为远距离冗余建模提供低成本入口。最终候选集是二者并集。
- 设计动机：如果只用局部图，会丢掉远程相关性；如果只用全局稀疏图，又无法处理低层细节。双尺度图把“近处看细节”和“远处找相似”同时纳入，而且复杂度远低于全局全连接注意力。
复杂度感知的自适应连接度:
- 功能：让不同位置分到不同数量的图连接预算，而不是每个节点强制同度。
- 核心思路：作者用 Sobel 算子在每个通道上计算梯度，并通过 RMS pooling 形成复杂度分数。梯度越大，说明局部结构越复杂、冗余越低，这类位置需要更多邻居帮助建模和消除冗余。随后把全图总边预算 B = N * d_bar 按复杂度比例分配到每个节点，得到每个节点目标度数 d_i*。
- 设计动机：图像压缩不是分类任务，不需要每个位置都拥有相同建模容量。平滑区域少连一点并不会伤害重建，反而能让模型把更多预算留给难压缩的边缘和纹理区域。
基于相似度阈值的图构建与 GFA 聚合:
- 功能：在候选集中进一步选出最值得连的邻居，并完成消息传递聚合。
- 核心思路：对每个节点，作者计算其与候选节点之间的余弦相似度，再通过二分搜索寻找一个阈值，使保留下来的邻居数量尽量贴近目标度数 d_i*。随后在得到的有向图上做图特征聚合，先执行局部图聚合，再执行全局图聚合。
- 设计动机：双尺度采样解决了“有哪些可能值得连的点”，而二分阈值搜索解决了“最终到底选谁”。这种分步设计比直接在全图上做软注意力更可控，也更贴近压缩里需要的稀疏结构。

损失函数 / 训练策略¶

训练目标仍采用标准率失真优化，即最小化码率项与失真项之和。作者分别在 PSNR 和 MS-SSIM 设定下训练模型，并用 BD-rate、BD-PSNR 进行比较。

这一点很重要，因为它说明 GLIC 的收益不是来自改变评价协议，而是确实在同一压缩目标下得到更优的变换表示。

实验关键数据¶

主实验¶

作者在 Kodak、Tecnick、CLIC 三个标准数据集上对比 VTM-9.1 和一系列近期 LIC 强基线。最核心结果如下。

指标	Kodak	Tecnick	CLIC
GLIC 相对 VTM-9.1 的 BD-rate	-19.29%	-21.69%	-18.71%
相对 FTIC 的 BD-PSNR 增益	+0.26 dB	+0.38 dB	+0.37 dB
相对 TCM-L 的 BD-PSNR 增益	+0.39 dB	+0.56 dB	+0.46 dB

这些结果说明 GLIC 并不是只在某一个数据集上偶然占优，而是在高分辨率 Tecnick、2K 的 CLIC 以及经典 Kodak 上都稳定收益，尤其 Tecnick 上 21.69% 的 BD-rate 降低很有说服力。

消融实验¶

论文对复杂度评分与通道池化策略做了很细的消融，这一部分很好地支撑了“RMS Sobel 梯度”不是拍脑袋选择。

评分策略	通道池化	Kodak	CLIC	Tecnick
None	None	-16.97	-16.21	-18.21
Local Entropy	RMS	-17.05	-17.01	-18.97
Rescaling Residual	RMS	-17.67	-17.03	-19.68
Rescaling Residual	Mean	-18.23	-17.82	-20.39
Sobel Gradient	Mean	-18.02	-17.42	-20.62
Sobel Gradient	RMS	-19.29	-18.71	-21.69

关键发现¶

双尺度图设计是成立的。论文文字分析指出，只用局部图或只用全局图都会明显退化，其中仅全局图最差，说明压缩确实需要同时保留局部精细结构和远程冗余建模。
复杂度感知连接度也很关键。若完全取消复杂度评分，模型退化为更接近固定 kNN 的 GNN，三个数据集都比完整设计差。
Sobel + RMS 优于 mean pooling，说明在压缩里更强调大梯度区域的显著性是合理的。RMS 对强边缘更敏感，正好能把预算分配给难压缩区域。
除了压缩率，论文还强调效率。相对 MambaIC，GLIC 在参数量、FLOPs、解码延迟和显存上都有明显下降，说明图结构没有把系统拖进“性能好但太慢”的尴尬境地。

亮点与洞察¶

本文真正有价值的地方不是“GNN 首次用于 LIC”这个 headline，而是把 GNN 用在了压缩最关心的两个问题上：连接范围和连接密度。这个问题分解非常自然，也很符合压缩里的物理直觉。
where 和 how much 的解耦值得记住。很多架构设计把所有适应性都塞进一个 attention 模块里，而 GLIC 明确先做候选采样，再做预算分配，模块职责清楚，分析也更容易。
作者没有把 GNN 全面替换所有层，而是在后两阶段使用 GFA，在前面保留轻量卷积块。这种混合式设计工程感很强，比纯理论上的“全图网络”更落地。
论文对 ERF 的分析也很有意思。作者展示 GLIC 在不同内容位置会产生明显不同的有效感受野，这正是内容自适应连接真正起作用的证据。

局限与展望¶

图构建仍然需要计算候选相似度并做二分阈值搜索，这部分虽然比全局注意力便宜，但在更高分辨率或更严格实时场景里仍可能成为瓶颈。
当前工作主要聚焦静态图像压缩。若扩展到视频压缩，图节点还会增加时间维，图构建与同步更新会复杂得多。
连接预算依赖手工定义的复杂度评分。虽然 Sobel-RMS 很有效，但仍属于人为设计特征，未来可尝试学习式复杂度估计器。
模型主要与 VTM 和学术 LIC 基线比较。面向工业落地时，还需要与更完整的软件和硬件编码链路评估端到端收益。
另一个自然方向是把 GFA 与更强的熵模型结合。本文主要在变换网络上发力，若后续能把图结构进一步引入上下文熵估计，可能还有空间。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 GNN 真正嵌入 LIC 的率失真建模逻辑中，而不是简单替代模块，思路很扎实。
实验充分度: ⭐⭐⭐⭐ 三个标准数据集、主结果、复杂度分析和多组消融都到位，但更多下游部署评测仍可补充。
写作质量: ⭐⭐⭐⭐ 问题拆分清楚，方法和实验之间对应关系强。
价值: ⭐⭐⭐⭐⭐ 为学习图像压缩提供了新的建模范式，后续影响力很可能不止停留在图像压缩本身。