DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression¶
会议: CVPR 2026 arXiv: 2603.13162 代码: 项目主页 领域: 图像压缩 / 扩散模型 关键词: 图像压缩, 扩散Transformer, 单步去噪, 对齐机制, 高效解码
一句话总结¶
提出 DiT-IC,将预训练T2I扩散Transformer通过三种对齐机制(方差引导重建流、自蒸馏对齐、潜表示条件引导)适配为单步图像压缩重建模型,在32×下采样的深层潜空间执行扩散,实现SOTA感知质量且解码速度比现有扩散压缩编解码器快30×。
研究背景与动机¶
基于扩散的图像压缩在感知保真度上表现出色,但实用性受限于两大瓶颈: - 采样开销:现有方法需4-50步迭代去噪,解码延迟超过1秒 - 浅层潜空间:现有扩散编解码器多用U-Net架构(8×空间下采样),而传统VAE编解码器在16×-64×深层域工作,差距是计算浪费的根源
核心问题:扩散能否在深度压缩的潜空间(32×下采样)中有效运行而不损失重建质量?
关键洞察:U-Net的层级下采样进一步降低空间分辨率,不适合深层潜表示;而DiT在整个去噪过程中保持恒定空间分辨率,天然兼容深层潜空间。但直接移植预训练DiT会导致严重退化——生成目标(从纯噪声起步)与压缩重建目标(从结构化量化潜表示起步)存在本质错配。
方法详解¶
整体框架¶
基于 SANA(预训练T2I DiT)+ ELIC(辅助编码器),在32×下采样的潜空间执行扩散重建。编码器产生量化潜表示 \(\hat{\mathbf{y}}\),DiT执行单步重建,解码器恢复图像。通过 LoRA(VAE rank 32, DiT rank 64)轻量适配,两阶段训练覆盖多码率。
关键设计¶
-
方差引导重建流(从生成到重建的对齐): 图像压缩的初始状态不是纯高斯噪声而是结构化的量化潜表示——大部分信息已在数据流形附近。压缩噪声具有空间异质性:平滑区域像低噪声(小时间步),纹理区域像高噪声(大时间步)。因此用编码器预测的方差 \(\boldsymbol{\sigma}\) 映射为逐像素伪时间步: $\(t = \mathcal{F}(\text{proj}_\theta(\boldsymbol{\sigma})) \in \mathbb{R}^{H \times W}\)$ 高方差→大 \(t\)→强去噪,低方差→小 \(t\)→弱去噪。单步重建为 \(\hat{\mathbf{y}} = \tilde{\mathbf{y}} - \mathbf{v}_\theta(\tilde{\mathbf{y}}, t)\),将多步去噪轨迹压缩为单次空间自适应变换。
-
自蒸馏对齐(从多步到单步的对齐): 压缩场景下没有预训练的多步教师模型可用。创新地利用冻结编码器的潜表示 \(\mathbf{y}_0\) 作为自监督目标——它已在数据流形附近,是单步去噪输出 \(\hat{\mathbf{y}}_0\) 的天然对齐目标: $\(\mathcal{L}_{\text{distil}} = \mathbb{E}\left[1 - m - \frac{\langle\hat{\mathbf{y}}, \mathbf{y}_0\rangle}{|\hat{\mathbf{y}}|_2 |\mathbf{y}_0|_2}\right]\)$ 使用边际余弦对齐损失,冻结编码器并联合优化DiT和解码器,保持编码器定义的潜空间几何。
-
潜表示条件引导(从文本到语义潜表示的对齐): 压缩重建不需要文本prompt,但预训练DiT依赖文本条件。用轻量投影模块将压缩潜表示映射到文本编码器的嵌入空间:\(c_{\text{lat}} = \text{Proj}_\psi(\hat{y})\)。通过 CLIP 风格对比学习损失对齐潜表示嵌入和文本嵌入: $\(\mathcal{L}_{\text{cond}} = -\mathbb{E}_{(x_i,t_i)}\left[\log\frac{\exp(\langle c_{\text{lat},i}, c_{\text{text},i}\rangle/\tau)}{\sum_j \exp(\langle c_{\text{lat},i}, c_{\text{text},j}\rangle/\tau)}\right]\)$ 训练时对齐两种嵌入,推理时仅用潜表示条件,移除沉重的文本编码器。
损失函数 / 训练策略¶
- 两阶段训练:Stage 1 小 \(\lambda\) 放松码率约束保留特征(100K iter, 256×256, batch 32);Stage 2 大 \(\lambda\) 收紧码率+对抗损失增强感知质量(60K iter, 512×512, batch 16)
- 失真损失:\(\mathcal{D} = \lambda_1 \text{MSE} + \lambda_2 \text{LPIPS} + \lambda_3 \text{DISTS}\)
- 对齐损失:\(\mathcal{L}_{\text{align}} = \lambda_4 \mathcal{L}_{\text{distil}} + \lambda_5 \mathcal{L}_{\text{cond}}\)
- 码率损失:\(\mathcal{R} = -\log_2 p_{\hat{\mathbf{y}}}(\hat{\mathbf{y}}|\hat{\mathbf{z}}) - \log_2 p_{\hat{\mathbf{z}}}(\hat{\mathbf{z}})\)
- 使用 InternVL 做视觉-语言骨干,EMA 衰减率 0.999
实验关键数据¶
主实验(BD-rate↓,以 PerCo 为anchor)¶
| 方法 | 扩散步数 | 解码延迟(s) | LPIPS BD-rate↓ | DISTS BD-rate↓ |
|---|---|---|---|---|
| ResULIC (ICML'25) | 4 | 0.83 | -62.27 | -65.64 |
| StableCodec (ICCV'25) | 1 | 0.34 | -79.19 | -83.95 |
| OSCAR (NeurIPS'25) | 1 | 0.32 | -19.04 | -58.38 |
| DiT-IC | 1 | 0.15 | -83.65 | -87.88 |
DiT-IC 在LPIPS和DISTS上均达到最优BD-rate,且解码速度最快(0.15s FP16)。
消融实验¶
| 配置 | LPIPS BD-rate | DISTS BD-rate |
|---|---|---|
| DiT-IC 完整 | 0.00% | 0.00% |
| 无对抗损失 | -2.27% | -1.80% |
| 从头训练(不用预训练) | +22.00% | +32.45% |
| LoRA rank 16/16 | +12.77% | +13.92% |
| LoRA rank 32/32 | +5.31% | +5.56% |
| 全参微调 | +7.95% | +8.05% |
解码延迟对比(FP32, 2048×2048):StableCodec 0.8s 扩散 vs DiT-IC 0.12s 扩散(-85%)。
关键发现¶
- 预训练权重至关重要:从头训练 DISTS 退化 32.45%
- LoRA rank 32/64 是最佳平衡点,全参微调反而略差(小batch下扰乱预训练分布)
- 在 4096×4096 分辨率下优势更明显:StableCodec 延迟激增到10.3s,DiT-IC 仅 0.47s(-95%)
- DiT 的恒定空间分辨率架构是深层潜空间扩散的关键——U-Net 的下采样在32×latent上已无空间可操作
- 可在 16GB 笔记本 GPU 上重建 2048×2048 图像
亮点与洞察¶
- 三种对齐机制精准解决了生成→重建的目标错配:方差引导对齐噪声特性、自蒸馏对齐学习过程、潜表示条件对齐输入条件
- 方差→伪时间步的空间自适应设计优雅——不同区域需要不同强度的"修复"
- 自蒸馏无需外部教师,用编码器自身输出作为目标,方案简洁有效
- 移除文本编码器的设计兼顾了效率和语义——通过对比学习"蒸馏"文本先验到潜表示条件中
局限性 / 可改进方向¶
- 极低码率(<0.01 bpp)下潜表示信息不足,可能需要辅助文本先验
- 对抗训练可能引入感知-失真权衡,MSE/SSIM等传统指标会略降
- 当前未集成对抗蒸馏技术(如 SDXL-Turbo),可能进一步提升感知真实感
- 训练数据仅150K图像,更大规模数据可能带来进一步提升
- NoPE(无位置编码)策略虽支持分辨率泛化,但在极端分辨率下的鲁棒性待验证
相关工作与启发¶
- 与 StableCodec 对比:后者基于 SD/U-Net 在8×域扩散,DiT-IC 在32×域实现更高效率
- 与 OSCAR 对比:后者用图像级码率-时间步映射,DiT-IC 用像素级方差-时间步映射更精细
- OneDC 用图像tokenizer做条件,与潜表示条件引导思路异曲同工
- 证明了预训练扩散Transformer对压缩任务的强大迁移能力——"对齐"是解锁这种能力的关键
评分¶
- 新颖性: ⭐⭐⭐⭐ 三种对齐机制系统解决生成→压缩的域转移,方差引导时间步是亮点
- 实验充分度: ⭐⭐⭐⭐ 三个数据集,全面BD-rate+延迟分析,详细消融
- 写作质量: ⭐⭐⭐⭐ 对齐视角统一三个设计,结构清晰
- 价值: ⭐⭐⭐⭐ 对实际图像压缩部署有重要意义,30×加速使扩散压缩首次可行
- 价值: 待评