Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation¶

会议: ICLR 2026
arXiv: 2507.01957
代码: GitHub
领域: 自回归图像生成
关键词: 并行解码, 自回归建模, 空间局部性, 位置查询, 高效推理

一句话总结¶

提出 Locality-aware Parallel Decoding (LPD)，通过灵活并行化自回归建模架构和局部性感知的生成顺序调度，将 256×256 图像的生成步数从 256 降至 20，实现至少 3.4× 的延迟降低。

LPD 包含两个核心：灵活并行化自回归建模架构（支持任意生成顺序和并行度）+ 局部性感知生成顺序调度（最大化上下文支持，最小化组内依赖）。

灵活并行化自回归建模: 解耦上下文表示和token生成——已生成token提供上下文（KV cache），可学习位置查询token驱动目标位置的并行生成。使用专门的注意力掩码：
- Context Attention：因果地让后续token关注上下文token
- Query Attention：同一步的位置查询token相互可见，但不允许后续token关注查询token 推理时编码和解码可融合为单步操作，仅存储生成token的KV cache。
局部性分析: 在 LlamaGen-1.4B 上分析注意力模式，发现强空间局部性——解码token的注意力集中在附近空间token上。定义 Per-Token Attention (PTA)： $$PTA_s = \frac{1}{N}\sum_{i=1}^N \frac{\sum_j \text{Attention}(T_i,T_j) \cdot \mathbb{I}[d(T_i,T_j)=s]}{\sum_j \mathbb{I}[d(T_i,T_j)=s]}$$ PTA 随距离急剧下降，验证了两个原则：并行token应靠近已生成token（强条件化）、远离同组token（低依赖）。
局部性感知生成顺序调度: 在每步 $k$ 中：
- 计算未选token与已选token的欧氏距离作为proximity
- 按proximity排序，阈值 $\tau$ 筛选高proximity候选集 $c_1$
- 从 $c_1$ 中依次选取token，每选一个就用排斥阈值 $\rho$ 过滤邻近token
- 不足时用最远点采样从剩余集 $c_2$ 补充组大小通常通过余弦调度递增。生成顺序可预计算。

分组自回归训练目标：$p(x_1,...,x_N;c) = \prod_{g=1}^G p(X_g|X_{<g};c)$ 使用交叉熵损失，训练时采用专门的注意力掩码实现 teacher-forcing + 并行预测。

类型	模型	参数	FID↓	IS↑	#Steps	Latency(s)	Throughput
AR	LlamaGen-XXL	1.4B	2.34	253.9	576	24.40	0.72
AR	RAR-XXL	1.5B	1.48	326.0	256	6.59	6.72
Par.AR	PAR-XXL-4×	1.4B	2.35	263.2	147	6.26	2.33
Par.AR	RandAR-L	343M	2.55	288.8	88	1.97	28.59
Par.AR	LPD-L	343M	2.31	284.9	20	0.40	92.42
Par.AR	LPD-XL	775M	1.97	304.0	20	0.57	60.27

模型	参数	FID↓	#Steps	Latency(s)	Throughput
LlamaGen-XXL	1.4B	2.59	1024	-	-
LPD-XXL	1.4B	2.25	48	2.78	6.56