InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis¶

会议: ICCV 2025
arXiv: 2509.10441
代码: GitHub
领域: 图像生成
关键词: 任意分辨率生成, 潜在扩散模型, VAE解码器替换, 隐式神经位置编码, 高效4K生成

一句话总结¶

提出InfGen，一种"第二代生成"范式，用一个基于Transformer的生成器替换VAE解码器，从固定大小的latent一步解码出任意分辨率图像，无需修改或重新训练扩散模型，将4K图像生成时间压缩至10秒以内，比现有最快方法UltraPixel提速10倍以上。

研究背景与动机¶

任意分辨率图像生成的需求：不同设备（手机、4K显示器等）需要一致的视觉体验
现有方法的瓶颈：
- 扩散模型的计算需求随分辨率二次增长，生成4K图像延迟超过100秒
- Training-free方法（如ScaleCrafter、FouriScale）通过调整推理过程（膨胀卷积等）实现超分辨率，但与特定网络架构绑定、泛化性差
- Inf-DiT等方法重新设计了注意力机制但速度仍慢（255秒生成2K图像）
- UltraPixel需要微调扩散模型本身
关键洞察：
- 生成模型已经完成了内容生成（第一阶段），第二阶段的解码器只需一次前向传播
- 增强解码器能力来实现高分辨率图像生成是更高效的路径
- 将latent到高分辨率图像的映射本质上是超分辨率任务，但需要生成能力来补充信息损失

方法详解¶

整体框架¶

InfGen是一个"二次生成"模型： 1. 第一阶段：扩散模型生成固定大小的content latent z（如4×64×64） 2. 第二阶段：InfGen将z解码为任意分辨率的图像

\[f: \text{InfGen}(z, (h, w)) \rightarrow x_{(h,w)}\]

这种范式带来两大优势：（1）高推理速度——避免在高分辨率latent上做多步去噪；（2）即插即用——适用于任何基于相同latent空间的扩散模型。

任意分辨率解码器架构¶

基于传统VAE结构，引入Transformer-based latent生成器： - 将latent变量z作为keys和values - 创建与目标图像尺寸(h,w)对应的mask token作为query，形状为(⌈h/8⌉, ⌈w/8⌉) - 在多层Transformer块中，mask token通过交叉注意力机制与latent keys交互获取信息 - 最终将mask token送入解码器上采样，生成最终的任意分辨率图像

隐式神经位置编码（INPE）¶

解决固定latent与动态大小mask token之间的空间信息对齐问题：

坐标标准化：将mask token和latent token坐标映射到统一尺度 $$(\hat{x}^m, \hat{y}^m) = (x^m/W^m, y^m/H^m)$$
球面映射：将标准化的2D坐标转换为单位球面上的3D笛卡尔坐标，利用球面几何捕获复杂空间关系
傅里叶变换+神经网络映射：通过高频傅里叶特征增强模式捕获能力 $$\gamma(x,y,z) = [\cos(B[x,y,z]^T), \sin(B[x,y,z]^T)]$$ 然后通过隐式神经网络生成动态位置编码

训练目标¶

\[L_{AE} = \ell_1(x, \hat{x}) + \lambda_P \mathcal{L}_P(x, \hat{x}) + \lambda_G \mathcal{L}_G(\hat{x})\]

其中 $\ell_1$ 为L1重建损失，$\mathcal{L}_P$ 为LPIPS感知损失，$\mathcal{L}_G$ 为PatchGAN判别器的对抗损失。λ_P和λ_G均设为0.1。

无训练分辨率外推¶

通过迭代方式实现超越训练分辨率的超高分辨率（如4K）生成： $$L_n = \text{Encoder}(I_{n-1}), \quad I_n = \text{InfGen}(L_n, k_n^s)$$

最终分辨率：$R_f = 512 \cdot \prod_{i=1}^n s_i^h \times 512 \cdot \prod_{i=1}^n s_i^w$

实验关键数据¶

主实验：图像Tokenizer重建质量对比¶

方法	输入→输出分辨率	ImageNet rFID↓	PSNR↑	SSIM↑
VQGAN	256²→256²	1.19	23.38	0.762
SD-VAE	256²→256²	0.74	25.68	0.820
SDXL-VAE	256²→256²	0.68	26.04	0.834
InfGen	256²→256²	1.07	24.61	0.798
InfGen	512²→512²	0.61	27.92	0.867
SD-VAE	256²→512²	1.43	24.14	0.759
InfGen	256²→512²	1.15	22.86	0.728

InfGen在跨分辨率重建（256²→512²）任务上明显优于SD-VAE。

对扩散模型的高分辨率提升¶

方法	512² FIDp↓	1024² FIDp↓	2048² FIDp↓	3072² FIDp↓
DiT-XL/2	44.17	61.52	64.87	77.84
InfGen+DiT	39.81 (↓9.9%)	41.75 (↓32%)	56.21 (↓13.4%)	45.94 (↓41%)
SD1.5	21.58	55.30	-	-
InfGen+SD1.5	16.92 (↓21%)	41.12 (↓26%)	-	-
FiTv2	42.04	66.95	-	79.30
InfGen+FiTv2	38.77 (↓7.8%)	61.56 (↓8.1%)	-	45.72 (↓42%)

关键发现：InfGen在所有分辨率和模型组合上都有显著提升，3072²分辨率下提升最高达44%。

与SOTA高分辨率生成方法对比¶

方法	1024² FIDp↓	2048² FIDp↓	1024² Latency(s)	2048² Latency(s)
ScaleCrafter	55.36	144.61	7	97
Inf-DiT	48.48	142.05	50	255
UltraPixel	48.37	127.26	11	20
InfGen+SD1.5	44.85	139.14	2.9+0.4	2.9+1.9
InfGen+SDXL	35.14	96.41	5.4+0.4	5.4+1.9

InfGen+SDXL在FID和速度上均大幅领先，生成2K图像仅需~7秒，比UltraPixel快4倍，比Inf-DiT快35倍。

训练设置¶

训练数据：LAION-Aesthetic中分辨率>1024²的500万张图像，以及>2048²的子集
两阶段训练：第一阶段512²→1024²（batch=32，500k迭代），第二阶段512²→2048²（batch=8，100k迭代）
硬件：8×A100，训练15天
优化器：AdamW，学习率从2e-4余弦衰减到1e-5

亮点与洞察¶

范式转换：将任意分辨率生成问题从"修改扩散模型"转变为"增强解码器"，大幅降低了复杂度和计算成本
即插即用设计：InfGen不修改VAE编码器，因此可作为现有扩散模型的直接升级补丁，适用于SD1.5、SDXL、DiT、SiT等
隐式神经位置编码：通过球面映射+傅里叶变换解决了固定latent与动态分辨率之间的空间对齐问题
迭代外推策略：无训练地将生成能力扩展到任意超高分辨率，每次迭代2倍放大

局限性¶

InfGen在256²同分辨率重建上略弱于原始VAE（rFID 1.07 vs 0.74），因为其任务更复杂
迭代外推过程需要多次编码-解码，每次额外引入信息损失
对抗损失的训练可能导致生成内容与原始语义有偏差
当前仅在SDXL的VAE latent空间上训练，迁移到其他latent空间需要重新训练

评分 ⭐⭐⭐⭐¶

思路清晰，方法简洁高效。即插即用的设计理念和10倍速度提升使其具有很强的实用价值。隐式神经位置编码设计巧妙。