Latent Diffusion Model without Variational Autoencoder¶

会议: ICLR 2026
arXiv: 2510.15301
代码: GitHub
领域: 扩散模型 / 视觉表征
关键词: 自监督表征, DINOv3, 无VAE潜在扩散, 统一特征空间, 少步生成

一句话总结¶

提出 SVG，用冻结的 DINOv3 自监督特征替代 VAE 潜在空间构建扩散模型，通过轻量残差编码器补充细粒度细节，实现更快训练、更高效推理和跨任务通用的视觉表征。

SVG 由三部分组成：冻结的 DINOv3 编码器 + 轻量残差编码器 → SVG 特征空间 → SVG Decoder 重建图像。扩散模型直接在 SVG 特征空间训练。

SVG 自编码器: 冻结 DINOv3-ViT-S/16+ 编码器产生 $16 \times 16 \times 384$ 特征图（对 256×256 图像）。残差编码器（ViT）捕获 DINO 特征缺失的细粒度细节，输出拼接后形成完整 SVG 特征。残差分布通过批统计对齐到 DINO 特征分布： $$\hat{F}_R = \frac{F_R - \mu(F_R)}{\sigma(F_R)} \cdot \sigma(F_D) + \mu(F_D)$$
SVG Diffusion: 不同于 VAE 的 $16 \times 16 \times 4$ 潜在空间，SVG 在 $16 \times 16 \times 384$ 高维特征空间上训练扩散模型。通常高维训练不稳定，但 SVG 特征的良好语义分散性使训练稳定高效。使用 SiT 设置的 flow matching 目标训练。
语义分散性分析: 通过 t-SNE 可视化和 toy example 展示：语义清晰分离的特征空间中，同类样本速度方向一致、异类方向分明，简化优化并减少采样步数。

两阶段训练： - 阶段一：仅训练残差编码器和 SVG 解码器（重建损失 + 分布对齐），冻结 DINOv3 - 阶段二：训练 SVG Diffusion（SiT 设置，QK-Norm，per-channel 归一化）

方法	Tokenizer	训练Epoch	Steps	gFID w/o CFG	gFID w/ CFG
DiT-XL	SD-VAE	1400	250	9.62	2.27
SiT-XL	SD-VAE	1400	250	9.35	2.15
REPA-XL	SD-VAE	800	250	5.90	1.42
SiT-XL (SD-VAE)	SD-VAE	80	25	22.58	6.06
SiT-XL (VA-VAE)	VA-VAE	80	25	7.29	4.13
SVG-XL	SVGTok	80	25	6.57	3.54
SVG-XL	SVGTok	500	25	3.94	2.10

方法	Steps	FID w/o CFG	FID w/ CFG
SiT-XL (SD-VAE)	5	69.38	29.48
SiT-XL (VA-VAE)	5	74.46	35.94
SVG-XL	5	12.26	9.03
SiT-XL (SD-VAE)	10	32.81	10.26
SVG-XL	10	9.39	6.49

DINOv3-ViT-S/16+ 编码器产生 $16 \times 16 \times 384$ 特征（vs SD-VAE 的 $16 \times 16 \times 4$）
残差编码器使用 ViT 架构（timm 库实现），与 DINOv3 特征通道拼接
SVG Decoder 沿用 VA-VAE 的解码器架构设计
SVG 特征空间做 per-channel 归一化以稳定高维扩散训练
DiT 中 patch embedding 层替换为简单线性投影（384→模型维度）
隐状态通道数通常>384（如 DiT 中为 1152），因此 SVG 不导致推理低效
线性探测准确率：DINOv3 原始 86.4%，SVG（冻结 DINO 部分）85.2%，语义能力基本保留
MAE 和 SigLIP 编码器的重建能力不足以支撑高质量生成
SVG-XL 1400 epoch 25 步 FID=3.36 (w/o CFG) / 1.92 (w/ CFG)，接近 SOTA
支持模型尺度缩放：SVG-B(130M) 到 SVG-XL(675M) 均有效
通过分分析分辨检查任务证明 SVG 特征可用于感知和理解