Conditional Panoramic Image Generation via Masked Autoregressive Modeling¶
会议: NeurIPS 2025
arXiv: 2505.16862
代码: https://wang-chaoyang.github.io/project/par (项目页)
领域: 全景图像生成 / 自回归建模
关键词: 全景图像生成, 掩码自回归建模(MAR), equirectangular投影, 循环填充, 一致性对齐
一句话总结¶
提出PAR(Panoramic AutoRegressive model),首次用掩码自回归建模统一文本到全景图和全景图外延两大任务,通过循环平移一致性损失和双空间循环填充解决ERP全景图的边界不连续问题,在Matterport3D上取得37.37 FID,同时展示出良好的可扩展性和零样本泛化能力。
背景与动机¶
全景图(360°图像)生成在VR/AR、自动驾驶、视觉导航等领域有广泛需求。目前的方法存在两大痛点:
-
扩散模型的理论缺陷:现有方法大多基于扩散模型,而ERP全景图将球面映射到2D平面时会引入非均匀空间畸变——靠近极点的像素方差大于赤道像素。这违反了扩散模型核心的i.i.d.高斯噪声假设(论文附录A给出了严格数学证明:ERP像素噪声方差与纬度的sin值成反比)。
-
任务割裂:文本到全景图(Text-to-Panorama, T2P)和全景图外延(Panorama Outpainting, PO)通常被视为独立任务,前者微调Stable Diffusion,后者用SD-inpainting变体,两套架构、两份数据。即使Omni2试图统一,也需要精细的多任务数据工程。
此外,现有方法还有冗余建模问题:bottom-up方法逐步inpaint拼接导致误差累积;top-down方法用全局+局部双分支带来不必要的计算开销。
核心问题¶
如何设计一个理论上合理且任务统一的全景图生成框架?具体来说:(1)避免扩散模型与ERP之间的i.i.d.矛盾;(2)用同一架构和目标函数同时处理T2P和PO任务,无需任务特定的数据工程。
方法详解¶
整体框架¶
PAR基于掩码自回归建模(MAR),整体pipeline为: - 输入:全景图经VAE编码器压缩为latent表示,patchify后得到visual token序列 - 掩码编码器:随机掩码一部分token,未掩码token与文本嵌入(Phi-2编码)在编码器中融合 - 解码器:编码器输出传入解码器,与掩码token交互,输出条件信号\(z\) - 去噪MLP:轻量级MLP \(\epsilon_\theta\) 以\(z\)为条件,对噪声污染的latent进行去噪,生成连续token(而非离散token,减少量化误差) - VAE解码器:还原为像素空间全景图
关键统一思想:T2P就是\(\mathcal{S}_k = \emptyset\)(所有token都需要生成),PO就是\(\mathcal{S}_k \neq \emptyset\)(已知区域的token作为条件),两者在MAR框架下自然统一。传统raster-scan AR无法处理PO任务(因为已知区域不一定在序列开头),而MAR允许任意顺序生成,完美解决这一问题。
关键设计¶
-
循环平移一致性损失(Translation Consistency Loss):ERP全景图具有水平循环平移等变性——将图像水平平移\(v\)像素后,语义内容不变(只是起始经度变了)。作者利用这一性质,对原始输入\((x, \epsilon, M)\)和平移后的输入\((\mathcal{T}_v(x), \mathcal{T}_v(\epsilon), \mathcal{T}_v(M))\)分别前向传播,强制两个输出满足等变关系:\(\mathcal{L}_{consistency} = M' \circ ||\mathcal{T}_v(y) - y'||^2\)。这迫使模型学会ERP的循环特性。注意:此约束仅对全景图成立;透视图平移会引入不连续边界,语义不再等价。
-
双空间循环填充(Dual-space Circular Padding):VAE在编码/解码时,边缘像素的感受野不完整(只有单侧上下文),导致左右边界不连续。解决方案是在两个空间做循环填充:
- Pre-padding(像素空间):VAE编码前,裁剪图像左右\(rW/2\)宽度的区域拼接到另一侧,使编码器边缘有充分上下文→保证语义级连续性
- Post-padding(latent空间):VAE解码前,在latent上做同样操作→保证像素级平滑过渡
变换后丢弃padding区域,公式:\(C_r(x) = \text{concat}(x[...,-rW/2:], x, x[...,:rW/2])\)
- 基于NOVA的初始化:使用NOVA(无向量量化的自回归视频生成模型)作为预训练初始化,分辨率512×1024,仅需20K迭代微调。
损失函数 / 训练策略¶
总损失:\(\mathcal{L} = \mathcal{L}_{va} + \lambda \mathcal{L}_{consistency}\),其中\(\lambda = 0.1\)
- \(\mathcal{L}_{va}\):标准去噪损失,仅在掩码区域计算
- \(\mathcal{L}_{consistency}\):循环平移一致性损失
训练细节:batch size 32, AdamW, lr=5e-5, 线性调度, 推理时CFG=5, AR步数64步, 去噪步数25步。
实验关键数据¶
Text-to-Panorama(Matterport3D)¶
| 方法 | 类型 | 参数量 | FAED↓ | FID↓ | CS↑ | DS↓ |
|---|---|---|---|---|---|---|
| PanFusion | DM | - | 5.12 | 45.21 | 30.29 | 2.67 |
| DiffPano | DM | - | 10.03 | 53.29 | 30.31 | 6.16 |
| UniPano | DM | - | 5.87 | 44.74 | 30.45 | 0.77 |
| Text2Light | AR | 0.8B | 68.90 | 70.42 | 27.90 | 7.55 |
| PanoLlama | AR | 0.8B | 33.15 | 103.51 | 32.54 | 13.99 |
| PAR (ours) | AR | 0.3B | 3.39 | 41.15 | 30.21 | 0.58 |
| PAR (ours) | AR | 0.6B | 3.34 | 39.31 | 30.34 | 0.57 |
| PAR (ours) | AR | 1.4B | 3.75 | 37.37 | 30.41 | 0.58 |
Panorama Outpainting(Matterport3D)¶
| 方法 | FID↓ | FID-h↓ |
|---|---|---|
| AOG-Net | 83.02 | 37.88 |
| 2S-ODIS | 52.59 | 35.18 |
| PAR w/o prompt | 41.63 | 25.97 |
| PAR w/ prompt | 32.68 | 12.20 |
推理速度对比(PAR-0.3B vs PanFusion)¶
| 方法 | 推理速度(sec/img) | FID |
|---|---|---|
| PanFusion | 28.91 | 45.21 |
| PAR-0.3B | 10.03 | 41.15 |
消融实验要点¶
- 一致性损失:去掉后FID从37.37升到39.55(+2.18),说明一致性损失对生成质量有明显改善
- 循环填充:pre-padding保证语义级连续性(没有pre-padding时即使post-padding很大也无法修复语义断裂),post-padding保证像素级平滑。\(r_{pre}=0.25\), \(r_{post}=0.125\)后DS基本收敛
- 可扩展性:0.3B→0.6B→1.4B,FID持续下降(41.15→39.31→37.37),视觉质量也随参数和训练计算量提升而改善
- CFG系数:CFG=5最优,CFG=3时FID=40.04,CFG=10时FID=39.76,过大过小都不好
- 去噪步数:25步最优(FID=40.19),10步和50步都稍差
- 循环填充无额外计算开销:padding主要影响VAE部分,transformer和MLP推理时间几乎不变(padding ratio 0~0.5,推理时间2.99~3.05 sec/img)
- Structured3D数据集:PAR-0.3B FID=47.02远优于PanoLlama的125.35
- OOD泛化:在SUN360零样本outpainting上,PAR FID=127.01优于Diffusion360的140.91;零样本T2P的DS=0.63优于StitchDiffusion的1.12
亮点¶
- 理论驱动的方法选择:不是简单堆技术,而是从ERP违反i.i.d.假设这一根本矛盾出发,选择AR建模路线,附录给出了严格数学证明
- 优雅的任务统一:T2P和PO的统一不需要任何数据工程,仅通过控制已知token集合\(\mathcal{S}_k\)即可切换,甚至零样本支持编辑任务
- 双空间循环填充:简洁有效,在像素和latent两个空间分别处理,互补解决语义和像素级不连续
- 循环平移一致性:巧妙利用ERP的几何先验,不增加推理开销(仅训练时使用)
- 推理速度优势:0.3B模型比PanFusion快约3倍,同时FID更低
- 连续token设计:使用连续token+MLP去噪,避免了离散token的量化误差
局限性 / 可改进方向¶
- 小物体细节不足:作者承认在桌椅等小物体细节上仍有失败案例(Fig.15)
- 数据稀缺:全景图数据远少于透视图数据,限制了模型质量的进一步提升,作者指出在更大规模真实全景数据上训练可能缓解
- 分辨率有限:目前固定在512×1024,高分辨率全景图生成未探索
- 极区模糊:Structured3D实验显示极区(天花板/地板)生成质量较低,但作者论证这是数据集本身特性
- 垂直方向一致性:循环填充和一致性损失主要关注水平方向,垂直方向(南北极→赤道)的畸变适应尚未专门处理
- 生成内容的真实感差距:与真实全景图相比,纹理和细节仍有差距
与相关工作的对比¶
| 维度 | PanFusion (CVPR 2024) | Omni2 (2025) | PAR (本文) |
|---|---|---|---|
| 基础模型 | Stable Diffusion | 扩散模型 | NOVA (MAR) |
| i.i.d.问题 | 存在 | 存在 | 避免 |
| 任务统一 | 仅T2P | T2P+PO但需数据工程 | T2P+PO+编辑,无需数据工程 |
| 架构 | 双分支(全景+透视) | 统一但复杂 | 单一编解码器 |
| 推理速度 | 28.91s | - | 10.03s |
| FID | 45.21 | - | 37.37 (1.4B) |
与PanoLlama/Text2Light等AR方法相比,PAR使用MAR而非raster-scan,支持任意位置生成,且质量远超(FID 37.37 vs 103.51/70.42)。
启发与关联¶
- 与分层4K全景分割用于具身智能的空间推理增强相关:PAR生成的高质量全景图可作为具身智能训练的数据增强来源
- MAR框架的灵活性(通过控制\(\mathcal{S}_k\)统一多任务)可迁移到其他需要统一条件/非条件生成的场景
- 循环平移一致性的思路可推广到其他具有等变性先验的数据(如球面数据、周期信号等)
- 双空间padding的思路可用于其他需要VAE处理周期性/循环边界数据的场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 从i.i.d.矛盾出发选择MAR路线有理论深度,但MAR本身非原创
- 实验充分度: ⭐⭐⭐⭐ T2P和PO两个任务+消融+OOD+编辑+速度分析,较全面
- 写作质量: ⭐⭐⭐⭐ 动机清晰、理论推导严谨(附录证明),方法描述流畅
- 价值: ⭐⭐⭐⭐ 为全景图生成提供了新范式,统一化设计有实用价值,但领域相对小众