Learning Visual Generative Priors without Text¶

会议: CVPR 2025
arXiv: 2412.07767
代码: https://ant-research.github.io/lumos (项目页)
领域: 图像生成
关键词: 图像到图像生成, 视觉生成先验, 自监督学习, 预训练, 扩散模型

一句话总结¶

提出Lumos框架，通过纯视觉的图像到图像（I2I）自监督预训练学习视觉生成先验，然后仅用1/10的文本-图像对微调即可达到甚至超越现有T2I模型的效果，并在文本无关的视觉任务（I2V、NVS）上展现出优于T2I先验的性能。

研究背景与动机¶

领域现状：当前文本到图像（T2I）模型是视觉生成的主流先验，被广泛用作下游任务（如视频生成、3D合成）的初始化权重。
现有痛点：T2I模型严重依赖高质量文本-图像数据对。实验表明文本噪声比例从10%增至90%时，CLIP score下降约1.0。扩大高质量配对数据的标注成本极高，限制了模型的尺度化。
核心矛盾：T2I模型同时需要学习两件困难的事——纹理建模和文本-图像对齐。嘈杂的文本不仅影响对齐，还会干扰纹理建模的学习。
本文目标 能否将纹理建模和跨模态对齐解耦——先用海量无标注图像学习纯视觉生成先验，再用少量配对数据做对齐微调？
切入角度：跨模态对齐并非"好的视觉生成先验"的必要条件，视觉先验的核心在于纹理建模。I2I生成可以从无标注图像中自监督学习。
核心 idea：用预训练视觉编码器（DINO）提取图像特征作为条件，在1.9亿无标注图像上训练I2I扩散模型作为更基础的视觉先验。

方法详解¶

整体框架¶

分两阶段：(1) I2I预训练——给定图像，用冻结的视觉编码器（DINO-B）提取特征，以此为条件训练DiT-XL/2扩散模型进行图像重建；(2) 下游迁移——加载I2I预训练权重，将条件从图像特征切换为文本编码器（T5-XXL）的输出，在少量文本-图像对上微调实现T2I，或直接迁移到NVS、I2V等文本无关任务。

关键设计¶

纯视觉I2I训练框架:
- 功能：在无标注图像上以自监督方式学习视觉生成先验
- 核心思路：给定图像 \(x\)，先用预训练VAE编码到潜空间 \(z = \mathcal{E}(x)\)，同时用冻结的DINO-B提取视觉语义特征 \(\tau^{\text{img}}(x) \in \mathbb{R}^{M \times d}\)。以这些特征为条件，通过cross-attention注入DiT骨干网络，用标准扩散去噪目标训练。关键点：编码器和VAE在整个预训练过程中保持冻结。
- 设计动机：DINO等自监督视觉编码器已被证明能提取比有监督模型更丰富的特征。利用它们作为条件，I2I模型可以充分利用互联网上海量的无标注图像。
条件特征选择策略:
- 功能：确定I2I模型使用全局或局部视觉特征作为条件
- 核心思路：对比了三种特征：全局CLS token、局部patch tokens、全部tokens。实验发现局部特征显著加速I2I收敛，但对下游T2I微调反而不利（因为模型对条件的依赖过强）；全局特征虽然I2I收敛慢，但下游迁移效果更好。最终选用全局特征。
- 设计动机：全局特征提供语义级别的约束而非像素级约束，给下游任务留有更大的调整空间——这一发现揭示了"上下游不一致性"。
视觉编码器选择：DINO vs CLIP:
- 功能：验证纯视觉编码器与多模态编码器对I2I先验的影响
- 核心思路：对比DINO、MoCoV3（纯视觉）与CLIP（多模态）。DINO/MoCoV3在I2I阶段收敛更快、FID更好。在下游T2I微调时，CLIP在早期有优势（因为具有文本对齐能力），但DINO最终反超——作者称其为"后起之秀"（late bloomer）。T5在T2I阶段作为文本编码器优于CLIP编码器。
- 设计动机：证明了纯视觉先验不仅可行，而且最终效果更好。I2I先验增强了纹理建模，简化了T2I的学习过程。

损失函数 / 训练策略¶

I2I阶段使用标准扩散去噪损失，在1.9亿图像上训练。T2I阶段在3000万文本-图像对上微调65K步即达到竞争性结果。支持条件dropout以启用classifier-free guidance。

实验关键数据¶

主实验¶

模型	T&I Pairs	Steps	FID-30K↓
SDv1.5	2000M	1026k	9.62
PixArt-α	24M	240k	7.32
Imagen	860M	5000k	7.27
Lumos-T2I	30M	65k	12.20
Lumos-T2I (长字幕)	30M	65k	6.44

使用长字幕时Lumos以仅30M数据和65K步超越所有现有方法。在GenEval上Overall=0.57，DPG-Bench上Average=79.9，与同量级模型相当甚至更好。

消融实验¶

I2I数据规模	I2I FID↓	T2I FID↓	说明
10M	较高	较高	数据少
50M	中等	中等	持续提升
200M	最低	最低	规模化有效

先验类型	NVS PSNR↑	NVS SSIM↑	NVS LPIPS↓
无先验	较低	较低	较高
T2I先验	中等	中等	中等
I2I先验	19.63	0.8439	0.1526

关键发现¶

上下游不一致性：I2I模型本身FID越好，不代表下游T2I迁移越好。局部特征I2I好但T2I差，全局特征反之——这揭示了预训练和下游的目标不完全一致。
I2I先验可规模化：从10M到200M图像，I2I和下游T2I的FID持续下降，证明纯视觉先验的学习可以有效利用数据规模。
I2I先验在文本无关任务上优于T2I先验：在NVS和I2V任务上，I2I先验一致性地优于T2I先验，因为不需要设计文本提示。
DINO是"后起之秀"：虽然CLIP在I2I早期收敛快，但DINO在最终步数上反超，且下游T2I效果更好。

亮点与洞察¶

解耦纹理建模与对齐：将T2I的两个难题拆开——先用海量无标注数据学纹理（I2I），再用少量配对数据学对齐（T2I微调）。这是一种本质上的效率提升思路。
上下游不一致性的发现：预训练模型的"好"不等于下游任务的"好"——这为选择预训练策略提供了重要启示。
数据效率：仅用1/10的文本-图像对就达到了竞争性能，大幅降低了高质量配对数据的需求。对资源有限的研究者非常友好。

局限与展望¶

当前仅在DiT-XL/2（~0.8B参数）上验证，更大模型的表现未知
I2I预训练的图像筛选标准和数据来源对结果的影响未充分探讨
T2I微调仍需30M配对数据，能否进一步减少到百万级别？
未探索将I2I先验应用到图像编辑、图像修复等更多下游任务

评分¶

新颖性: ⭐⭐⭐⭐ 明确提出纯视觉生成先验的概念并系统验证
实验充分度: ⭐⭐⭐⭐⭐ T2I/NVS/I2V三个下游任务，大量消融实验，分析非常详尽
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图表丰富
价值: ⭐⭐⭐⭐ 降低了数据标注依赖，对大规模视觉生成预训练有重要参考意义