PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion¶

会议: CVPR 2026
arXiv: 2602.12769
代码: 无
领域: 图像生成 / 高分辨率生成 / 扩散模型加速
关键词: 免训练高分辨率生成, patch-based推理, 部分反转, 单步扩散, 高斯混合

一句话总结¶

PixelRush 首次实现了免训练的单步高分辨率图像生成，通过部分 DDIM 反转（只扰动到中间时间步而非全噪声）+ 少步扩散模型 + 高斯滤波 patch 融合 + 噪声注入，在单卡 A100 上 20 秒生成 4K 图像，比 SOTA 快 10-35× 且 FID 更优（50.13 vs 52.87）。

背景与动机¶

预训练扩散模型（如 SDXL）只能在原生分辨率（1024×1024）下生成高质量图像，直接推理到高分辨率会出现严重的物体重复和纹理伪影。现有免训练方法（DemoFusion、FreeScale 等）通过 patch-based 或频域干预来解决，但都需要完整的多步反向扩散（50 步）。结果是生成一张 4K 图像需要 5-10 分钟，8K 需要超过一小时——完全不实用。

核心问题¶

能否将免训练高分辨率生成的推理时间从分钟级降到秒级？核心瓶颈是什么？

方法详解¶

整体框架¶

两阶段流水线：(1) 基础模型（SDXL）在原生分辨率生成基础图像；(2) 级联上采样——每一步分辨率翻倍，通过"上采样→编码→精炼→解码"循环。PixelRush 的核心创新在精炼阶段。

关键设计¶

部分反转（Partial Inversion）: 现有方法将粗糙潜在变量扰动到完全高斯噪声（t=T=999）再做完整反向扩散——但实验发现扩散模型是频率分层重建的：前期恢复低频结构（粗糙图已有），后期才生成高频细节。因此只需扰动到中间时间步（如 t=249 而非 999），用 DDIM 反转保留结构信息，然后只做后半段反向扩散。这直接节省 75% 计算。
少步模型加速（Few-step Model）: 将精炼阶段的扩散模型替换为 SDXL-Turbo（蒸馏后的少步模型），在截断的反向轨迹上只用 1 步完成细节合成。这使得部分反转 + 少步模型实现了 10-35× 加速。
高斯滤波 Patch 融合: 标准的平均混合在少步/单步设置下完全失败（产生严重的棋盘格伪影）。原因是少步模型做大幅更新，简单平均无法调和 patch 边界差异。解决方案：用高斯模糊将二值重叠 mask 变为连续平滑权重——越靠近 patch 中心的像素权重越高，实现无缝过渡。
噪声注入（Noise Injection）: 少步模型的大步去噪倾向于过度平滑。通过在预测噪声中插入随机噪声（球面插值 slerp，λ=0.95）来展平数据分布，促进高频细节合成。注意：此技巧仅适用于少步模型，应用于多步模型反而会积累误差。

损失函数 / 训练策略¶

完全免训练（inference-time only）。使用预训练的 SDXL（基础生成）和 SDXL-Turbo（精炼）。

实验关键数据¶

方法	2K FID↓	2K IS↑	2K 时间	4K FID↓	4K IS↑	4K 时间
SDXL-DI	73.34	10.93	28s	153.53	7.32	247s
DemoFusion	68.46	13.15	75s	74.75	12.57	507s
FreeScale	52.87	13.56	53s	58.28	13.35	323s
PixelRush	50.13	14.32	4s	54.67	13.75	20s

加速比：2K 下 13-22×，4K 下 12-34×。质量也全面超越。

消融实验要点¶

部分反转 vs 完整扰动: 从 50 步减到 15 步（部分反转），FID 从 54.70→52.90，速度 3.7×
加入少步模型: 进一步降到 1 步/4 秒，但 FID 上升到 57.23（伪影和过度平滑）
加入高斯融合: FID 降到 56.16（消除棋盘格）
加入噪声注入: FID 降到 50.13（消除过度平滑），实现最优质量+速度
反转深度 K: K=249（最浅）最优；K 越大 FID 越差（DDIM 反转与少步模型不兼容）
噪声系数 λ: λ=0.95 最优；λ 越小高频细节越多但噪声也越大
Overlap 25% vs 50%: 25% overlap 减少 patch 数一半（49→25），质量几乎无差，可进一步加速

亮点¶

核心洞察非常清晰：粗糙图已有低频结构，无需从全噪声重建——部分反转自然适配少步模型
四个技术点层层递进：部分反转→少步模型→高斯融合→噪声注入，每一步都解决前一步引入的问题
实际效果震撼：4K 图像 20 秒，8K 图像 100 秒以内，首次实现免训练高分辨率生成的实用化
高斯滤波融合是一个简单而优雅的解决方案——"少步模型 + patch 融合"的通用问题都可用此策略
还展示了逐帧应用到视频超分的可行性

局限性 / 可改进方向¶

依赖 SDXL-Turbo 作为少步模型，如果上游蒸馏质量不够会影响最终效果
逐帧应用到视频时无时序一致性保证，会出现闪烁
与 Transformer 架构的扩散模型（如 FLUX、SANA）的兼容性有待验证
噪声注入系数 λ 固定为 0.95，对不同内容可能需要自适应调整

与相关工作的对比¶

vs DemoFusion: DemoFusion 需要全噪声 + 50 步反向，且有物体重复问题。PixelRush 用 DDIM 反转保留结构 + 1 步精炼，同时更快更好
vs FreeScale/FouriScale: 这些在频域做干预，经常引入不自然纹理。PixelRush 完全在空间域操作，避免了频域伪影
vs CutDiffusion: 只减少 patch 数无法根本解决速度问题。PixelRush 从算法层面将步数从 50 减到 1
vs 超分辨率: PixelRush 不是恢复真实低分辨率图像，而是在中间生成物上合成一致的高频细节

启发与关联¶

"部分反转"的思想可以迁移到任何需要从粗到细精炼的扩散任务（视频生成、3D 生成、图像编辑）
少步模型 + 高斯 patch 融合的组合对所有 patch-based 推理方法都有价值
球面插值噪声注入作为对抗过度平滑的通用技巧，值得在其他少步生成场景中验验证

评分¶

新颖性: ⭐⭐⭐⭐ 部分反转 + 少步模型的结合是新颖的，但各组件技术含量相对简单
实验充分度: ⭐⭐⭐⭐⭐ 2K/4K 两种分辨率 + 多种指标 + 丰富消融 + 不同模型组合
写作质量: ⭐⭐⭐⭐⭐ 叙事流畅，一步步引导读者理解为什么需要每个组件
价值: ⭐⭐⭐⭐⭐ 10-35× 加速 + 质量提升，真正实现了免训练高分辨率生成的实用化