DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression¶

会议: CVPR 2026 arXiv: 2603.13162 代码: 项目主页领域: 图像压缩 / 扩散模型 关键词: 图像压缩, 扩散Transformer, 单步去噪, 对齐机制, 高效解码

一句话总结¶

提出 DiT-IC，将预训练T2I扩散Transformer通过三种对齐机制（方差引导重建流、自蒸馏对齐、潜表示条件引导）适配为单步图像压缩重建模型，在32×下采样的深层潜空间执行扩散，实现SOTA感知质量且解码速度比现有扩散压缩编解码器快30×。

研究背景与动机¶

基于扩散的图像压缩在感知保真度上表现出色，但实用性受限于两大瓶颈： - 采样开销：现有方法需4-50步迭代去噪，解码延迟超过1秒 - 浅层潜空间：现有扩散编解码器多用U-Net架构（8×空间下采样），而传统VAE编解码器在16×-64×深层域工作，差距是计算浪费的根源

核心问题：扩散能否在深度压缩的潜空间（32×下采样）中有效运行而不损失重建质量？

关键洞察：U-Net的层级下采样进一步降低空间分辨率，不适合深层潜表示；而DiT在整个去噪过程中保持恒定空间分辨率，天然兼容深层潜空间。但直接移植预训练DiT会导致严重退化——生成目标（从纯噪声起步）与压缩重建目标（从结构化量化潜表示起步）存在本质错配。

方法详解¶

整体框架¶

基于 SANA（预训练T2I DiT）+ ELIC（辅助编码器），在32×下采样的潜空间执行扩散重建。编码器产生量化潜表示 $\hat{\mathbf{y}}$，DiT执行单步重建，解码器恢复图像。通过 LoRA（VAE rank 32, DiT rank 64）轻量适配，两阶段训练覆盖多码率。

关键设计¶

方差引导重建流（从生成到重建的对齐）: 图像压缩的初始状态不是纯高斯噪声而是结构化的量化潜表示——大部分信息已在数据流形附近。压缩噪声具有空间异质性：平滑区域像低噪声（小时间步），纹理区域像高噪声（大时间步）。因此用编码器预测的方差 $\boldsymbol{\sigma}$ 映射为逐像素伪时间步： $$t = \mathcal{F}(\text{proj}_\theta(\boldsymbol{\sigma})) \in \mathbb{R}^{H \times W}$$ 高方差→大 $t$→强去噪，低方差→小 $t$→弱去噪。单步重建为 $\hat{\mathbf{y}} = \tilde{\mathbf{y}} - \mathbf{v}_\theta(\tilde{\mathbf{y}}, t)$，将多步去噪轨迹压缩为单次空间自适应变换。
自蒸馏对齐（从多步到单步的对齐）: 压缩场景下没有预训练的多步教师模型可用。创新地利用冻结编码器的潜表示 $\mathbf{y}_0$ 作为自监督目标——它已在数据流形附近，是单步去噪输出 $\hat{\mathbf{y}}_0$ 的天然对齐目标： $$\mathcal{L}_{\text{distil}} = \mathbb{E}\left[1 - m - \frac{\langle\hat{\mathbf{y}}, \mathbf{y}_0\rangle}{|\hat{\mathbf{y}}|_2 |\mathbf{y}_0|_2}\right]$$ 使用边际余弦对齐损失，冻结编码器并联合优化DiT和解码器，保持编码器定义的潜空间几何。
潜表示条件引导（从文本到语义潜表示的对齐）: 压缩重建不需要文本prompt，但预训练DiT依赖文本条件。用轻量投影模块将压缩潜表示映射到文本编码器的嵌入空间：$c_{\text{lat}} = \text{Proj}_\psi(\hat{y})$。通过 CLIP 风格对比学习损失对齐潜表示嵌入和文本嵌入： $$\mathcal{L}_{\text{cond}} = -\mathbb{E}_{(x_i,t_i)}\left[\log\frac{\exp(\langle c_{\text{lat},i}, c_{\text{text},i}\rangle/\tau)}{\sum_j \exp(\langle c_{\text{lat},i}, c_{\text{text},j}\rangle/\tau)}\right]$$ 训练时对齐两种嵌入，推理时仅用潜表示条件，移除沉重的文本编码器。

损失函数 / 训练策略¶

两阶段训练：Stage 1 小 $\lambda$ 放松码率约束保留特征（100K iter, 256×256, batch 32）；Stage 2 大 $\lambda$ 收紧码率+对抗损失增强感知质量（60K iter, 512×512, batch 16）
失真损失：$\mathcal{D} = \lambda_1 \text{MSE} + \lambda_2 \text{LPIPS} + \lambda_3 \text{DISTS}$
对齐损失：$\mathcal{L}_{\text{align}} = \lambda_4 \mathcal{L}_{\text{distil}} + \lambda_5 \mathcal{L}_{\text{cond}}$
码率损失：$\mathcal{R} = -\log_2 p_{\hat{\mathbf{y}}}(\hat{\mathbf{y}}|\hat{\mathbf{z}}) - \log_2 p_{\hat{\mathbf{z}}}(\hat{\mathbf{z}})$
使用 InternVL 做视觉-语言骨干，EMA 衰减率 0.999

实验关键数据¶

主实验（BD-rate↓，以 PerCo 为anchor）¶

方法	扩散步数	解码延迟(s)	LPIPS BD-rate↓	DISTS BD-rate↓
ResULIC (ICML'25)	4	0.83	-62.27	-65.64
StableCodec (ICCV'25)	1	0.34	-79.19	-83.95
OSCAR (NeurIPS'25)	1	0.32	-19.04	-58.38
DiT-IC	1	0.15	-83.65	-87.88

DiT-IC 在LPIPS和DISTS上均达到最优BD-rate，且解码速度最快（0.15s FP16）。

消融实验¶

配置	LPIPS BD-rate	DISTS BD-rate
DiT-IC 完整	0.00%	0.00%
无对抗损失	-2.27%	-1.80%
从头训练（不用预训练）	+22.00%	+32.45%
LoRA rank 16/16	+12.77%	+13.92%
LoRA rank 32/32	+5.31%	+5.56%
全参微调	+7.95%	+8.05%

解码延迟对比（FP32, 2048×2048）：StableCodec 0.8s 扩散 vs DiT-IC 0.12s 扩散（-85%）。

关键发现¶

预训练权重至关重要：从头训练 DISTS 退化 32.45%
LoRA rank 32/64 是最佳平衡点，全参微调反而略差（小batch下扰乱预训练分布）
在 4096×4096 分辨率下优势更明显：StableCodec 延迟激增到10.3s，DiT-IC 仅 0.47s（-95%）
DiT 的恒定空间分辨率架构是深层潜空间扩散的关键——U-Net 的下采样在32×latent上已无空间可操作
可在 16GB 笔记本 GPU 上重建 2048×2048 图像

亮点与洞察¶

三种对齐机制精准解决了生成→重建的目标错配：方差引导对齐噪声特性、自蒸馏对齐学习过程、潜表示条件对齐输入条件
方差→伪时间步的空间自适应设计优雅——不同区域需要不同强度的"修复"
自蒸馏无需外部教师，用编码器自身输出作为目标，方案简洁有效
移除文本编码器的设计兼顾了效率和语义——通过对比学习"蒸馏"文本先验到潜表示条件中

局限性 / 可改进方向¶

极低码率（<0.01 bpp）下潜表示信息不足，可能需要辅助文本先验
对抗训练可能引入感知-失真权衡，MSE/SSIM等传统指标会略降
当前未集成对抗蒸馏技术（如 SDXL-Turbo），可能进一步提升感知真实感
训练数据仅150K图像，更大规模数据可能带来进一步提升
NoPE（无位置编码）策略虽支持分辨率泛化，但在极端分辨率下的鲁棒性待验证

评分¶

新颖性: ⭐⭐⭐⭐ 三种对齐机制系统解决生成→压缩的域转移，方差引导时间步是亮点
实验充分度: ⭐⭐⭐⭐ 三个数据集，全面BD-rate+延迟分析，详细消融
写作质量: ⭐⭐⭐⭐ 对齐视角统一三个设计，结构清晰
价值: ⭐⭐⭐⭐ 对实际图像压缩部署有重要意义，30×加速使扩散压缩首次可行
价值: 待评