Boosting Generative Image Modeling via Joint Image-Feature Synthesis¶

基本信息¶

arXiv: 2504.16064
会议: NeurIPS 2025 Spotlight
作者: Theodoros Kouzelis, Efstathios Karypidis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis
机构: University of Crete, Valeo AI
代码: https://representationdiffusion.github.io/

提出 Latent-Semantic Diffusion，让扩散模型联合生成 VAE 低级图像 latent 和 DINO 高级语义特征，通过最小修改标准 DiT 实现生成质量和训练效率的显著提升，并解锁 Representation Guidance 推理策略。

表征学习和生成建模长期分离： - 生成模型 (LDM/DiT)：擅长生成高质量图像，但内部表征缺乏语义 - 自监督模型 (DINO/CLIP)：学到强语义表征，但不具备生成能力

将两者结合的尝试通常需要复杂的蒸馏目标或大幅修改架构。能否优雅地在一个模型中同时做到？

如何让扩散模型在生成图像的同时也生成语义特征，且两者相互增益？

核心思想：在扩散过程中同时建模两种 latent： - Image latent \(z_{img}\)：来自预训练 VAE 的低级图像编码 - Semantic feature \(z_{sem}\)：来自预训练 DINO 编码器的高级语义特征

将两者拼接为联合表示，在同一个扩散过程中从纯噪声生成。

类比 Classifier-Free Guidance (CFG) 的思路： - 训练完成后，利用学到的语义特征分支在推理时引导图像生成 - 语义特征→提供高层结构和语义约束→引导低级图像细节生成 - 不需要外部 classifier 或额外模型，自包含的引导机制

vs. REPA (NeurIPS 2024)：REPA 用对齐损失将 DINO 表征蒸馏到 DiT，需要额外损失；本文直接联合生成，更简洁
vs. REPA-E (ICCV 2025)：REPA-E 扩展了 REPA 到更多层的蒸馏；本文用完全不同的路径（联合建模 vs. 蒸馏）
vs. Classifier Guidance/CFG：CFG 需要有条件/无条件两次前向或外部 classifier；Representation Guidance 利用已学到的语义分支
vs. RCG（表征条件生成）：RCG 生成 DINO 特征再根据特征生成图像（两步）；本文一步联合生成