PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs¶
会议: ICCV 2025 arXiv: 2411.15867 代码: GitHub 领域: 全景图生成·自回归模型·图像生成 关键词: panoramic image generation, next-token prediction, LlamaGen, token redirection, training-free
一句话总结¶
提出 PanoLlama,通过 token 重定向策略将固定尺寸的视觉自回归(VAR)模型扩展为无限全景生成,实现免训练的 next-crop prediction,在连贯性、保真度和美学上超越联合扩散等方法。
研究背景与动机¶
全景图生成(Panoramic Image Generation, PIG)旨在生成任意长度的连贯图像,在艺术创作、历史修复等场景有广泛需求。现有方法的局限:
联合扩散(Joint Diffusion)方法的多层一致性难题:MultiDiffusion、SyncDiffusion 等方法将全景潜空间分割为裁剪块,独立去噪后融合。它们依赖启发式连接策略(加权平均、梯度引导、深度注意力),难以同时保证低级(颜色、边缘)和高级(语义、布局)的多层连贯性。
Inpainting 方法的视野受限:仅根据前一个裁剪块推断下一个内容,缺乏全局布局和结构规划。
VAR 模型的固定尺寸限制:LlamaGen 等自回归模型虽然天然适合序列生成,但受训练范式限制只能生成固定大小图像(如 512×512)。
核心洞察:全景生成的本质——在保持多级连贯性的同时逐步扩展图像——天然对齐 next-token prediction 范式。低级连贯性依赖相邻裁剪块的连接,高级连贯性需要考虑整个序列的全局过渡,这正是自回归模型擅长的。
方法详解¶
理论建模¶
将全景图 \(x'\) 分解为有序裁剪块序列 \(\{x_i\}\),建模为联合概率分布:
与 inpainting(仅条件于 \(x_{i-1}\))和联合扩散(条件于 \(x_{i-1}, x_{i+1}\))相比,自回归范式利用了所有前序裁剪块的信息。
整体框架(Fig. 2)¶
PanoLlama 由三部分构成: 1. 文本编码:文本 prompt \(y\) 经编码器 \(f_\mathcal{E}\) 编码为条件嵌入 \(s\) 2. Next-Crop Prediction:token 生成器 \(f_\mathcal{G}\) 自回归生成图像 token,并通过重定向策略扩展 3. Token 解码:连接的 token 序列 \(V\) 经图像 tokenizer 解码器 \(f_{\mathcal{T}d}\) 转为全景图
关键设计:Token 重定向(Training-Free)¶
垂直扩展:当位置索引 \(k\) 达到 token 上限 \(p\) 时,重定向到 \(p - r\sqrt{p}\) 重新开始,以 \(v_1\) 的最后 \(p - r\sqrt{p}\) 个 token 作为 \(v_2\) 的起始条件:
水平扩展(交错法):逐行扩展,每行 \(v_{i-1}^j\) 的最后 \(\sqrt{p} - c\) 个 token 作为 \(v_i^j\) 的起始条件,每次扩展 \(c\) 列:
扩展步幅 \(u = c / \sqrt{p}\) 控制质量与效率的平衡。
与现有方法的统一视角¶
| 方法 | 建模 | 条件范围 |
|---|---|---|
| Inpainting | $P(x_i | x_{i-1})$ |
| Joint Diffusion | $P(x_i | x_{i-1}, x_{i+1})$ |
| PanoLlama | $P(x_i | x_1, \ldots, x_{i-1})$ |
实验¶
主实验:定量比较(Tab. 1, 512×5120 全景图)¶
| 方法 | LPIPS ↓ | TV ↓ | SSIM ↑ | FID ↓ (相对) | CLIP-aesthetic ↑ | 时间 ↓ |
|---|---|---|---|---|---|---|
| MultiDiffusion | 0.694 | 0.061 | 0.184 | +3.16 | 6.84 | 1809s |
| SyncDiffusion | 0.582 | 0.058 | 0.263 | +8.75 | 6.94 | 7233s |
| MAD | 0.520 | 0.040 | 0.268 | +23.09 | 6.90 | 1924s |
| StreamMD | 0.637 | 0.055 | 0.257 | +53.50 | 6.75 | 241s |
| PanoLlama | 0.410 | 0.021 | 0.305 | +2.27 | 6.97 | 726s |
在连贯性(核心指标)上,PanoLlama 全面碾压所有基线: - TV 较最佳基线 MAD 提升 47.50% - LPIPS 提升 21.15% - SSIM 提升 13.81% - FID 相对损失仅 +2.27(最小),推理速度 3-10× 快于大多数方法
扩展步幅消融(Fig. 4)¶
| 步幅 \(u\) | PanoLlama COH | MAD COH | MultiDiffusion COH |
|---|---|---|---|
| 1/8 | 0.18 | 0.35 | 0.52 |
| 3/4 | 0.19 | 0.42 | 0.58 |
| 1 (无重叠) | 0.24 | 0.72 | 0.80 |
关键发现:随步幅增大,其他方法质量急剧下降,而 PanoLlama 保持稳定低 COH 分数——对扩展步幅具有极强鲁棒性,实现了更优的质量-效率平衡。
全景尺寸消融(Fig. 5)¶
从 2× 到 10× 分辨率,其他 PIG 方法随尺寸增大连贯性明显下降,PanoLlama 保持稳定——有效处理更大全景的挑战。
用户研究¶
1000 个 prompt × 2000 张全景图的大规模评估,涵盖 25 个主题 100+ 子主题。PanoLlama 在宏大场景(海景、草原)上表现尤佳,在复杂密集场景(人群、图案)上有一定挑战。
亮点与洞察¶
- 范式创新:将 PIG 从联合扩散重新定义为 next-crop prediction,理论上更优(利用全部前序信息)
- 免训练(Training-Free):仅通过 token 重定向即可将固定尺寸 VAR 模型推广到无限全景生成
- 丰富应用:支持多尺度扩展、无 mask 布局控制、多引导合成——这些是其他 PIG 方法无法实现的
- 新基准:构建了 1000 prompt × 100+ 主题的标准化评估数据集
局限性¶
- 受预训练 VAR 模型的固定 token 容量限制,仅通过部分前序 token 近似全局依赖
- 基于 LlamaGen 的图像质量受限于该模型本身的生成能力
- 水平扩展中的交错生成策略增加了实现复杂性
相关工作¶
- 联合扩散:MultiDiffusion、SyncDiffusion、TwinDiffusion、MAD
- Inpainting 全景:BLD
- 视觉自回归:LlamaGen、VQGAN、MaskGIT
评分¶
- 新颖性: ★★★★★ — 全景生成范式的根本重构
- 技术深度: ★★★★☆ — token 重定向策略简洁有效
- 实验质量: ★★★★★ — 大规模评估、多维度消融、新基准
- 写作质量: ★★★★★ — 统一理论视角清晰,对比分析精到
相关论文¶
- [CVPR 2026] TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration
- [ICCV 2025] SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models
- [ICCV 2025] REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder
- [ICCV 2025] Timestep-Aware Diffusion Model for Extreme Image Rescaling
- [ICCV 2025] MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space