DLF: Extreme Image Compression with Dual-generative Latent Fusion¶

会议: ICCV 2025
arXiv: 2503.01428
代码: dlfcodec.github.io
领域: 模型压缩/图像压缩
关键词: 极低码率图像压缩, 生成式编解码, 双分支编码, 向量量化, 语义-细节分解

一句话总结¶

提出双分支生成式隐空间融合（DLF）框架，将图像隐空间分解为语义和细节两个分支分别压缩，通过跨分支交互设计消除冗余，在极低码率（<0.01 bpp）下实现了超越 MS-ILLM 高达 67.82% BD-Rate 节省的 SOTA 重建质量，同时解码速度远快于扩散模型方案。

研究背景与动机¶

领域现状¶

极低码率图像压缩（如 0.01 bpp 以下）是当前图像压缩领域的核心挑战。传统编解码器（VVC）和基于 MSE 优化的神经网络编解码器在低码率下会产生严重模糊。近年来，基于生成式 tokenizer（如 VQGAN）的方法通过将图像压缩为少量 token 索引来实现极高压缩比，但这种方法面临根本性矛盾。

现有痛点¶

单一 codebook 的容量瓶颈：VQGAN 等生成式 tokenizer 通过在整个数据集上聚类语义来学习紧凑 codebook，这种方式优先编码数据集级别的共性内容，但在 codebook 尺寸缩小时，个体对象的独特细节（如精确的几何特征）会严重失真

扩散模型方案的局限：PerCo、DiffEIC 等扩散模型方案虽然提升了生成真实感，但在忠实度上不够理想，且解码速度极慢（4秒以上）

双分支方案的冗余问题：已有的双分支方案 HybridFlow 使用独立编码器，两条码流之间存在大量信息冗余

核心切入¶

能否将隐空间灵活地分解为"语义"和"细节"两部分，分别用最适合的压缩策略处理，同时通过交互设计消除冗余？

方法详解¶

整体框架¶

DLF 采用双分支编码架构：输入图像 \(X \in \mathbb{R}^{3 \times H \times W}\) 先通过 patch embedding 得到 \(Emb(X) \in \mathbb{R}^{C \times h \times w}\)（\(h=H/16, w=W/16\)），然后分别送入语义分支和细节分支。语义分支用 1-D tokenizer 聚类高层语义为紧凑 token，细节分支用标量量化（SQ）编码感知关键细节。两个分支通过多层 Interactive Transform（IT）模块进行跨分支交互。解码后，语义和细节特征通过 latent adaptor 融合，最终由预训练的 VQGAN decoder 生成重建图像。

关键设计¶

1. 语义分支（1-D Tokenizer）¶

功能：将图像的高层语义压缩为极少量的 1-D token
核心思路：将 \(Emb(X)\) 划分为 \(16 \times 16\) 的窗口，每个窗口内将 256 个 2-D 图像 token 和 32 个额外的 1-D token 一起送入 ViT。通过级联注意力，1-D token 高效聚合图像 token 中的关键语义信息。最终得到 \(y_s \in \mathbb{R}^{N \times C \times 32}\)，其中 \(N = \frac{h \times w}{16 \times 16}\)
量化方式：向量量化（VQ），使用固定长度编码传输 codebook 索引
设计动机：相比手动预定义 mask 的 token 减少策略，通过大规模学习自动压缩语义，处理不同图像时更灵活

2. 细节分支（SQ + 自适应比特分配）¶

功能：捕获 VQ codebook 无法表示的个体级细节信息
核心思路：使用 shifted window attention + ConvNeXT 提取局部和全局细节，下采样得到 \(y_d \in \mathbb{R}^{C \times h/2 \times w/2}\)。使用标量量化（SQ）+ 四叉树划分熵模型进行算术编码
量化公式：\(\hat{y}_s = VQ(y_s), \quad \hat{y}_d = Q(y_d)\)
设计动机：SQ 提供远大于 VQ 的量化空间，可以对不同空间区域使用不同的可学习量化步长，实现自适应比特分配——对独特的物体轮廓分配更多比特，对可被语义分支良好表示的常见内容分配更少比特

3. 跨分支交互设计（Interactive Transform, IT）¶

功能：消除语义和细节两条码流之间的信息冗余
核心思路：将细节特征 \(f_d\) 按照与语义分支相同的窗口策略重排为 \(\tilde{f_d} \in \mathbb{R}^{N \times C \times 256}\)，然后与语义特征联合送入多头自注意力层。处理后的细节特征再恢复原始形状
设计动机：（1）自注意力层动态重新分配语义和细节信息到各分支，减少冗余，同时让细节信息动态修正语义分支的生成误差；（2）为语义分支提供跨窗口感知能力——细节特征贡献全局信息，扩展语义分支的感受野

损失函数 / 训练策略¶

采用两阶段渐进式训练：

阶段一（隐空间对齐）：在隐空间施加 rate-distortion loss，用预训练 VQGAN encoder 生成的特征 \(\tilde{h}\) 监督融合特征 \(\hat{h}\) 的重建。256×256 patches，batch size 8，固定 \(\lambda = 24.0\)
阶段二（端到端微调）：在像素空间使用生成式损失微调整个模型。512×512 patches，batch size 4，\(\lambda \in \{5.8, 8.5, 16.0, 28.0\}\) 实现不同码率

实验关键数据¶

主实验¶

方法	数据集	LPIPS BD-Rate	DISTS BD-Rate	说明
DLF	Kodak	-43.05%	-67.82%	本文方法
GLC	Kodak	-17.24%	-33.41%	Tokenizer-based
DiffEIC	Kodak	+66.05%	+14.67%	扩散模型方案
PerCo	Kodak	+101.74%	-4.02%	扩散模型方案
HybridFlow	Kodak	+65.30%	—	双分支方案
MS-ILLM	Kodak	0.00% (anchor)	0.00% (anchor)	基准
DLF	CLIC2020	-27.93%	-53.55%	本文方法

消融实验¶

配置	Kodak LPIPS	Kodak DISTS	CLIC LPIPS	CLIC DISTS	说明
w/ SQ detail (DLF)	0.0%	0.0%	0.0%	0.0%	完整方案 (anchor)
w/o detail	+17.5%	+20.2%	+47.9%	+47.6%	移除细节分支
w/o interactive	+64.1%	+73.6%	+68.8%	+61.8%	移除IT模块
w/ VQ detail	+18.3%	+40.7%	+27.3%	+58.1%	细节分支用VQ代替SQ

复杂度分析¶

模型	编码时间	解码时间	DISTS BD-Rate
MS-ILLM	0.064s	0.070s	0.00%
PerCo	0.461s	2.443s	-4.02%
DiffEIC	0.152s	4.093s	+14.67%
DLF	0.178s	0.252s	-67.82%

关键发现¶

移除跨分支交互（IT模块）导致最严重的性能下降（>60% BD-Rate loss），证明独立双分支存在巨大冗余
细节分支使用 SQ 显著优于 VQ，证实了大量化空间对表示多样化细节的重要性
DLF 的解码速度比扩散方案快 10-16 倍，同时在忠实度上显著更优
在 CLIC2020 768×768 上，DLF 的 FID 大幅超越 PerCo，证明高质量数据集上的优势

亮点与洞察¶

语义-细节分解思想：将"数据集级共性"和"个体级多样性"解耦为两条码流，各自用最适合的量化策略，是一个简洁而有效的设计思路
跨分支交互的关键性：消融实验清晰表明，不做交互的独立双分支反而不如单分支，交互设计是双分支方案成功的核心
SQ vs VQ 的深层洞察：VQ 的有限 codebook 天然适合编码聚类的共性语义，SQ 的大量化空间适合编码多样化的细节，混合量化策略是最优解
对扩散方案的有力竞争：在保持可比的生成真实感的同时，大幅提升忠实度和解码速度

局限与展望¶

编解码速度仍未达实时：编码 0.178s、解码 0.252s，离实时应用有差距
训练成本高：需要两阶段训练，且依赖预训练的 VQGAN tokenizer
码率控制粒度：通过调整 \(\lambda\) 控制码率，灵活性有限
仅评估了感知指标：缺少下游任务（如检测、分割）的评估

评分¶

新颖性: ⭐⭐⭐⭐ — 语义-细节分解 + 跨分支交互是优雅的设计，但双分支思想本身并非全新
实验充分度: ⭐⭐⭐⭐ — 多数据集评估 + 完整消融 + 复杂度分析，较为充分
写作质量: ⭐⭐⭐⭐⭐ — 动机清晰，从 VQ 局限性出发推导出方案，逻辑流畅
价值: ⭐⭐⭐⭐ — 在极低码率压缩领域取得显著进展，对 tokenizer-based 压缩方向有重要参考价值