PixelDiT: Pixel Diffusion Transformers for Image Generation¶

会议: CVPR 2026
arXiv: 2511.20645
代码: https://github.com/
领域: 图像生成
关键词: 像素扩散, 双层Transformer, 端到端生成, 像素建模, 文本到图像

一句话总结¶

PixelDiT 提出完全基于Transformer的双层像素空间扩散模型：patch级DiT捕捉全局语义 + pixel级DiT细化纹理细节，无需VAE即可在ImageNet上达到1.61 FID，并直接在1024分辨率像素空间训练文本到图像模型。

研究背景与动机¶

领域现状：潜空间扩散是DiT的标准范式，但依赖预训练autoencoder引入有损重建，限制了采样保真度并阻碍联合优化。
现有痛点：像素空间扩散面临像素建模的核心挑战——需要同时处理全局语义和高频细节。激进patchification损失细节，小patch/长序列则计算爆炸。
核心矛盾：缺乏一种高效的像素建模机制能同时捕捉全局语义和逐像素更新。
本文目标：设计纯Transformer的像素空间扩散模型，显式结构化像素建模。
切入角度：将语义学习与像素级更新解耦为两个层次，各用不同粒度的Transformer处理。
核心idea：patch级pathway做长距离语义注意力（粗粒度），pixel级pathway做密集逐像素建模（细粒度），通过pixel-wise AdaLN和token compaction连接。

方法详解¶

整体框架¶

双层架构：patch级DiT以aggressive patch size处理短token序列捕获全局布局；pixel级DiT（PiT blocks）在像素粒度上细化纹理。pixel-wise AdaLN用语义token调制每个像素token，pixel token compaction在全局注意力前压缩像素token后解压回。

关键设计¶

Pixel-wise AdaLN调制:
- 功能：将patch级的语义信息注入到每个像素token的处理中
- 核心思路：不同于标准AdaLN使用全局条件（如timestep），PixelDiT用patch级语义token为每个像素token生成独立的调制参数。每个像素token根据其空间位置对应的语义token获得特定的scale和shift。
- 设计动机：全局条件对所有像素一视同仁，但不同空间位置需要不同的语义引导。像素级调制实现了空间自适应的条件注入。
Pixel Token Compaction:
- 功能：在保持逐像素建模的同时使全局注意力计算可行
- 核心思路：在全注意力之前，将每个像素token通过线性投影压缩到更低维度；注意力计算后再解压回原始维度。这使得像素级pathway可以在全分辨率token序列上执行全局注意力而不导致计算爆炸。
- 设计动机：像素级token数量庞大（256×256分辨率=65536 tokens），直接做全注意力不可行。Compaction在维度上压缩而非数量上减少，保留了空间分辨率。
双层路径融合:
- 功能：将语义学习和纹理细化在架构层面分离
- 核心思路：patch级pathway由N个增强DiT blocks组成，使用RMSNorm和2D RoPE。pixel级pathway的PiT blocks接收patch级输出作为语义条件，通过pixel-wise AdaLN和compaction attention生成最终像素级速度预测。
- 设计动机：将大部分语义推理集中在低分辨率网格上，减轻了像素级pathway的负担并加速了学习。

损失函数 / 训练策略¶

标准conditional flow matching损失，在像素空间直接训练。文本到图像使用multi-modal DiT blocks。

实验关键数据¶

主实验¶

方法	类型	FID↓ (256)	FID↓ (512)	说明
PixelDiT	像素	1.61	1.81	像素空间SOTA
DeCo	像素	1.62	2.22	频率解耦方法
DiT-XL/2	潜空间	2.27	-	需要VAE
PixelFlow	像素	-	-	层级方法

消融实验¶

配置	关键指标	说明
Pixel-wise AdaLN	优于全局AdaLN	空间自适应调制有效
Token Compaction	优于无压缩	使全局注意力可行
双层 vs 单层	双层显著更优	解耦设计是关键

关键发现¶

PixelDiT在像素空间模型中达到最低FID，证明纯Transformer架构在像素空间也能高效工作。
像素空间模型在图像编辑任务中天然避免了VAE重建伪影，背景保持更好。
可以直接在1024分辨率像素空间训练T2I模型，GenEval达0.74，DPG-Bench达83.5。

亮点与洞察¶

完全端到端：无VAE的纯Transformer架构是最简洁的生成pipeline。
Token Compaction是实用的工程创新：维度压缩而非空间下采样，保留了全空间分辨率。
证明了像素空间扩散可以在所有指标上接近甚至超越潜空间扩散。

局限与展望¶

相比LDM，训练成本仍然更高。
文本到图像在benchmark分数上略逊于最好的LDM（如FLUX）。
未来可结合更先进的训练技巧进一步缩小差距。

评分¶

新颖性: ⭐⭐⭐⭐ 双层像素Transformer设计新颖但与DeCo并行
实验充分度: ⭐⭐⭐⭐⭐ ImageNet+T2I+编辑多任务验证
写作质量: ⭐⭐⭐⭐ 架构描述详细清晰
价值: ⭐⭐⭐⭐ 推动像素扩散重新成为可行范式