CoD: A Diffusion Foundation Model for Image Compression¶

会议: CVPR 2026 arXiv: 2511.18706 代码: GitHub 领域: 图像压缩 / 扩散模型 关键词: 压缩导向扩散, 基础模型, rectified flow, 像素空间扩散, 率失真感知

一句话总结¶

提出首个面向压缩的扩散基础模型 CoD，从零训练学习端到端的压缩-生成联合优化，替换 Stable Diffusion 后在下游扩散编解码器中实现超低码率（0.0039 bpp）下的 SOTA 性能，训练成本仅为 SD 的 0.3%。

研究背景与动机¶

现有扩散编解码器（PerCo、DiffEIC、OSCAR 等）通常构建在 Stable Diffusion 之上以继承其生成先验。但文本条件从压缩角度看是次优的：

文本描述能力有限：人类文本难以精细描述自然图像的空间和纹理细节。
离散词汇不可微：文本编码器（如 BLIP-2）和扩散模型（如 SD）无法做联合端到端优化，无法进行率失真优化。
实证证据：DiffC 的零样本实验表明文本条件在低码率时实际上损害压缩性能。

核心洞察：如果把图像字幕生成器看作编码器、扩散模型看作解码器，这本质上就是一个压缩系统——但文本作为中间表示是低效的。用神经网络学习的原生图像 token 替代文本，并端到端联合训练压缩和生成，才是正确方向。

方法详解¶

整体框架¶

CoD 架构简洁：原生图像编码器 → 信息瓶颈（向量量化）→ 条件解码器 → 扩散模型（DiT backbone + DDT head）。在像素空间和隐空间都有实现。

关键设计¶

条件编码与信息瓶颈: 编码器用残差块 + 注意力层将图像压缩到 1/32 分辨率。信息瓶颈采用向量量化（VQ），码本大小 $N = 2^4 = 16$，对应 $4 \text{ bits} / (32 \times 32) = 0.0039 \text{ bpp}$ 的超低码率。这迫使扩散模型学习强大的生成能力来补偿信息丢失。条件解码器将量化 token 重建为 1/16 分辨率的中间条件。
统一的 Rectified Flow 训练: CoD 预测速度场 $v_t = x - \epsilon$（线性插值调度 $x_t = t \cdot x + (1-t) \cdot \epsilon$），使用 rectified flow 损失。关键发现是标准 RF 损失只保证结构一致性而非颜色。为此提出统一训练：随机选择 $\alpha\%$ 样本用 $t \in [0,1]$ 训练（优化感知），其余用 $t=0$ 训练。在 $t=0$ 时 RF 损失等价于单步重建 MSE：

$$\mathcal{L}_{\text{RF}}|_{t=0} = \text{MSE}(v_0, v_0^{\text{pred}}) = \text{MSE}(x, \hat{x}_0)$$

这在 RF 框架中自然融入了失真项，实现了率-失真-感知的联合优化。

像素空间 vs. 隐空间: 隐空间 CoD 在 SD-VAE 隐空间操作（2×2 patch embedding → 1/16），受限于 VAE 重建质量上限（~26 dB PSNR，0.6 bpp 码率天花板）。像素空间 CoD 用 16×16 patch embedding 直接建模原始像素，DDT head 每个特征预测一个神经场重建 16×16 patch。像素空间不受 VAE 限制，可覆盖 0.0039-4 bpp 的宽码率范围，PSNR 可达 ~47 dB 近无损级别。
零样本失真-感知控制: 统一训练赋予 CoD 通过采样步数直接控制失真-感知权衡的能力。25 步获得最佳感知质量；减为 1 步时 PSNR 提升 3.4 dB（16.2→19.6 dB），中间步数平滑插值。

损失函数 / 训练策略¶

\[\mathcal{L} = \mathcal{L}_{\text{RF}} + \lambda \cdot \mathcal{L}_{\text{REPA}} + \beta \cdot \mathcal{L}_C + \gamma \cdot \mathcal{L}_{\text{aux}}\]

其中 $\mathcal{L}_{\text{REPA}}$ 是 DINOv2 特征对齐损失，$\mathcal{L}_C$ 是码本承诺损失，$\mathcal{L}_{\text{aux}}$ 是辅助头（重建原始像素 + DINOv2 特征）。训练分两阶段：256×256（400k 步）→ 512×512（150k 步），4 张 A100 约 5 天。

实验关键数据¶

主实验¶

像素空间比较（Kodak 512×512）：

方法	码率 (bpp)	PSNR↑	FID↓	说明
VTM	~0.2	基准	-	传统编解码器
Pixel-CoD+DiffC	~0.2	≈VTM	远优	BD-Rate -2.1% vs VTM
MS-ILLM (GAN)	~0.2	较低	较高	感知质量以 PSNR 为代价
HiFiC (GAN)	~0.2	低	中等	同上

隐空间比较（超低码率）：

方法	码率 (bpp)	重建质量	说明
CoD (latent) + DiffC	<0.02	SOTA	超低码率优势显著
SD-based DiffC	<0.02	差	文本条件在低码率有害
PerCo (SD)	0.0036	中等	依赖文本+图像条件
OSCAR	~0.01	较好	去文本但仍基于 SD

消融实验 / Scaling Law¶

模型规模 (参数量)	压缩性能	说明
49M CoD	已优于 MS-ILLM (181M)	GAN 方法参数更多但效果差
114M CoD	明显更优
330M CoD	进一步提升	清晰的 scaling law 趋势

关键发现¶

像素扩散的潜力被严重低估：像素空间 CoD 能同时达到 VTM 级 PSNR 和超越 GAN 的感知质量，是首次证明扩散编解码器能在失真和感知两方面同时取胜
文本条件确实有害：DiffC on SD 加入文本条件后 LPIPS 在低码率变差，CoD 条件直接提升
训练成本极低：~20 A100 GPU days vs SD 的 ~6250 天（0.3%），完全开源数据可复现
49M 参数就能打败 181M 的 GAN 编解码器，证明压缩性能提升来自算法而非模型规模

亮点与洞察¶

从压缩理论角度重新审视"文本条件在扩散编解码器中的角色"，得出文本有害的反直觉结论，并提供了清晰的理论解释
统一 RF 训练将 $t=0$ 的单步重建等价于 MSE 失真优化，在连续流框架中自然融入了率-失真-感知三方优化
通过采样步数控制失真-感知权衡是一个零成本的附加能力，无需额外训练
像素空间扩散的全面复兴：以往认为隐空间扩散全面优于像素空间，本文证明像素空间在高码率和宽范围方面有不可替代的优势

局限性 / 可改进方向¶

目前仅支持 512×512 分辨率，扩展到 2K+ 需要大幅增加计算成本
与所有扩散编解码器一样，推理速度不满足实时编码需求（虽然单步蒸馏版本已接近实时）
码率的最低值固定为 0.0039 bpp（受 VQ 码本大小限制），灵活码率控制需要额外设计
未在视频压缩上验证，时序扩展是自然方向

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个面向压缩的扩散基础模型，统一训练策略和像素空间复兴都是重要贡献
实验充分度: ⭐⭐⭐⭐⭐ 像素/隐空间双线比较 + 多基准 + scaling law + 零样本控制 + 视觉对比
写作质量: ⭐⭐⭐⭐⭐ 从问题分析到方法设计再到实验验证环环相扣，insight 深刻
价值: ⭐⭐⭐⭐⭐ 0.3%训练成本+全开源数据+SOTA性能，对扩散压缩领域有基础性推动