RDVQ: Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression¶

会议: CVPR 2026
arXiv: 2604.10546
代码: https://github.com/CVL-UESTC/RDVQ
领域: 图像压缩/恢复
关键词: 向量量化, 率失真优化, 生成式图像压缩, 熵模型, 可微松弛

一句话总结¶

RDVQ 通过对码本分布的可微松弛，首次实现了 VQ-based 图像压缩的端到端率失真联合优化，在极低码率下以不到 20% 的参数量取得了优于或竞争性的感知质量。

领域现状：学习型图像压缩主要用标量量化（SQ），可微近似（如加噪/STE）使梯度能回传到编码器，实现端到端率失真优化。向量量化（VQ）能保留更好的结构信息和感知质量，特别适合极低码率。

现有痛点：VQ 的离散最近邻分配阻断了率损失到编码器的梯度传播。编码器诱导的隐式先验分布无法被率目标直接优化，导致表示学习和熵模型之间根本性脱耦。

核心矛盾：VQ 在重建质量上有优势，但无法像 SQ 那样进行端到端率失真联合优化，只能靠调码本大小、选择性传输等启发式方法控制码率。

本文目标：恢复 VQ 压缩中率目标到编码器的可微梯度路径，实现真正的端到端率失真优化。

切入角度：用距离感知的软分布替代硬最近邻分配，仅在率估计分支使用，重建仍用标准硬量化。

核心 idea：训练时用 softmax 松弛的码本分布估计率，使率梯度能流向编码器；推理时切回标准硬 VQ 保持兼容性。

分析变换 \(g_a\) 提取多尺度特征 → 展平为序列 → VQ 模块产生硬量化嵌入（用于重建）、离散索引（用于编码）和松弛分布（仅用于训练时率估计）→ 综合变换 \(g_s\) 重建图像。熵模型基于 Masked Transformer 在松弛分布上自回归预测。

可微软松弛（Differentiable Soft Relaxation）:
- 功能：恢复率目标到编码器的梯度路径
- 核心思路：计算编码器输出与每个码字的距离 \(d_{b,l,k}\)，通过温度缩放的 softmax 得到松弛分布 \(p_{\text{soft}}(b,l,k) = \text{softmax}_k(-d_{b,l,k}/\tau)\)。训练时率目标用这个连续分布计算交叉熵，而重建仍用硬量化
- 设计动机：只在率估计分支引入松弛，不改变重建和推理流程，实现训练-推理一致性
依赖感知的自回归熵模型:
- 功能：精确建模码本索引的条件概率分布
- 核心思路：多尺度特征按空间和层级组织成统一序列，构建依赖感知的排序向量 \(o\)，用掩码注意力 \(M = (o > o^\top)\) 实现并行训练下的自回归因式分解。粗尺度先编码，细尺度条件于粗尺度
- 设计动机：多尺度结构天然具有层级依赖，依赖感知排序比简单光栅扫描更好地捕获这些关系
测试时码率调整:
- 功能：无需重训练即可在有限范围内调节码率
- 核心思路：传输索引序列的前缀，用自回归熵模型补全剩余索引。联合率失真优化使隐空间高度可预测，前缀补全的质量退化平滑
- 设计动机：实际部署需要灵活的码率控制，前缀传输+自回归补全提供了优雅的解决方案

三阶段训练：(1) 预训练自编码器和码本（重建损失）；(2) 预训练熵模型（率目标）；(3) 联合微调全模型（率+失真），后在高分辨率数据上适配。损失包含 GAN 损失、LPIPS 感知损失和松弛交叉熵率损失。

数据集	指标	RDVQ	RDEIC	码率节省
DIV2K-val	DISTS	最优	次优	-75.71%
DIV2K-val	LPIPS	最优	次优	-37.63%
Kodak	DISTS	SOTA	-	-
CLIC2020	CLIPIQA	SOTA	-	-

配置	bpp	DISTS	LPIPS	FID
RDVQ (full)	0.0247	0.1005	0.2321	19.96
w/o Relaxation	0.0464	0.2147	0.5031	86.93
K-means VQ	0.0247	0.1253	0.2831	28.08