Pretrained Reversible Generation as Unsupervised Visual Representation Learning¶
会议: ICCV 2025
arXiv: 2412.01787
代码: 项目页面
领域: 扩散模型·表示学习
关键词: 可逆生成, 流匹配, 无监督表示学习, 预训练微调, 互信息
一句话总结¶
PRG 通过反转预训练连续生成模型(扩散/流模型)的生成过程来提取无监督视觉表示,实现模型无关的判别任务适配,在 ImageNet 64×64 上达到 78% top-1 准确率,为基于生成模型的方法中 SOTA。
研究背景与动机¶
扩散/流模型在生成任务上取得巨大成功,但其判别任务的潜力尚未充分挖掘。现有利用扩散模型做判别任务的方法存在以下问题:
生成式分类器(\(p(y|x) = p(x|y)p(y)/p(x)\)):计算昂贵,需要遍历所有类别
中间特征提取(如 DDAE):依赖特定网络模块(如 UNet 某层),设计复杂且不通用
性能差距大:与判别式方法仍有较大距离
核心洞察:"What I cannot create, I do not understand"(Feynman)——能够生成数据的模型必然理解了数据的结构。反转生成过程即可作为特征提取。
方法详解¶
1. 预训练阶段¶
训练三种连续时间流模型变体:
- PRG-GVP:广义 VP-SDE,\(\alpha_t = \cos(\frac{\pi t}{2})\), \(\sigma_t = \sin(\frac{\pi t}{2})\)
- PRG-ICFM:条件流匹配,\(v(x_t|x_0,x_1) = x_1 - x_0\)
- PRG-OTCFM:最优传输条件流匹配,联合采样 \((x_0,x_1)\)
训练目标(流匹配损失):
2. 反转生成作为特征提取¶
生成过程为 \(t \in [1, 0]\)(噪声→数据),反转为 \(t \in [0, 1]\)(数据→特征)。特征 \(x_t = F_\theta(x_0)\) 可从轨迹任意点提取。
3. 微调阶段¶
在反转轨迹上添加分类器 \(p_\phi(y|z)\),联合微调流模型和分类器:
分类器设计:简单两层 MLP + tanh 即可——反转特征已经高度结构化。
4. 理论保证¶
预训练等价于最大化数据 \(X\) 与表示 \(Z\) 之间的互信息 \(\mathcal{I}(X,Z)\):
通过流匹配训练可以最大化似然的下界(Eq. 8),从而间接最大化互信息。
实验¶
主实验:CIFAR-10 分类¶
| 方法 | 参数量 (M) | 准确率 (%) |
|---|---|---|
| WideResNet-28-10 | 36 | 96.3 |
| ResNeXt-29-16×64d | 68 | 96.4 |
| SBGC | N/A | 95.0 |
| DDAE | 36 | 97.2 |
| PRG-GVP | 42 | 97.25 |
| PRG-ICFM | 42 | 97.32 |
| PRG-OTCFM | 42 | 97.42 |
PRG-OTCFM 超越最强基线 DDAE,达到 97.42%。
连续特征提取器验证¶
| 推理步数 | 20 | 100 | 500 | 1000 |
|---|---|---|---|---|
| PRG-OTCFM | 97.42 | 97.43 | 97.43 | 97.44 |
尽管训练时 \(t_{\text{span}}=20\),推理时用任意步数(20-1000)均可,性能几乎不变,验证了连续特征提取的鲁棒性。
微调轨迹长度的影响¶
| 起始点 | CIFAR-10 | Tiny-ImageNet |
|---|---|---|
| 仅分类头(冻结流模型) | ~50% | ~20% |
| \(x_{1/4} \to x_1\) | 95.8 | 52.0 |
| \(x_{1/2} \to x_1\) | 97.0 | 58.4 |
| \(x_0 \to x_1\) | 97.4 | 56.1 |
- CIFAR-10(简单):全轨迹微调最优
- Tiny-ImageNet(复杂):从中间开始更优,过长轨迹可能过拟合
预训练质量与微调性能¶
更长预训练(互信息更高)→ 更好的微调性能。未预训练模型仅 73.5%,充分预训练后达 97.4%。
亮点与洞察¶
- 模型无关:不依赖特定网络架构(UNet/Transformer 均可),潜变量 \(Z\) 由 ODE 求解器确定,与网络结构无关
- 无限层表达力:连续时间流模型提供无限层结构,小参数量即可高表达力
- 预训练-微调范式的优雅实现:生成式预训练+判别式微调,证明两者互补而非对立
- 灵活的层次选择:不同任务可选择轨迹上不同位置的特征
局限性¶
- 实验仅在 64×64 分辨率下进行,高分辨率效果未知
- 微调需要端到端训练流模型(计算开销大),冻结模型仅分类效果差
- ODE 求解器的反向传播增加内存和计算需求
- 缺乏与 MAE、DINO 等自监督方法的直接比较
相关工作¶
- 生成式分类器:Diffusion Classifier、HybViT、SBGC
- 表示学习:去噪自编码器 (DAE)、MAE、iGPT
- 扩散特征:DDAE、DiffusionDet、Baranchuk et al.
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 技术深度 | 5 |
| 实验充分性 | 4 |
| 写作质量 | 4 |
| 综合 | 4.2 |
相关论文¶
- [ICCV 2025] VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
- [ECCV 2024] Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition
- [CVPR 2025] CTRL-O: Language-Controllable Object-Centric Visual Representation Learning
- [ICCV 2025] Unsupervised Imaging Inverse Problems with Diffusion Distribution Matching
- [ICML 2025] Unsupervised Learning for Class Distribution Mismatch (UCDM)