跳转至

Conditional Panoramic Image Generation via Masked Autoregressive Modeling

会议: NeurIPS 2025
arXiv: 2505.16862
代码: https://wang-chaoyang.github.io/project/par (项目页)
领域: 全景图像生成 / 自回归建模
关键词: 全景图像生成, 掩码自回归建模(MAR), equirectangular投影, 循环填充, 一致性对齐

一句话总结

提出PAR(Panoramic AutoRegressive model),首次用掩码自回归建模统一文本到全景图和全景图外延两大任务,通过循环平移一致性损失和双空间循环填充解决ERP全景图的边界不连续问题,在Matterport3D上取得37.37 FID,同时展示出良好的可扩展性和零样本泛化能力。

背景与动机

全景图(360°图像)生成在VR/AR、自动驾驶、视觉导航等领域有广泛需求。目前的方法存在两大痛点:

  1. 扩散模型的理论缺陷:现有方法大多基于扩散模型,而ERP全景图将球面映射到2D平面时会引入非均匀空间畸变——靠近极点的像素方差大于赤道像素。这违反了扩散模型核心的i.i.d.高斯噪声假设(论文附录A给出了严格数学证明:ERP像素噪声方差与纬度的sin值成反比)。

  2. 任务割裂:文本到全景图(Text-to-Panorama, T2P)和全景图外延(Panorama Outpainting, PO)通常被视为独立任务,前者微调Stable Diffusion,后者用SD-inpainting变体,两套架构、两份数据。即使Omni2试图统一,也需要精细的多任务数据工程。

此外,现有方法还有冗余建模问题:bottom-up方法逐步inpaint拼接导致误差累积;top-down方法用全局+局部双分支带来不必要的计算开销。

核心问题

如何设计一个理论上合理任务统一的全景图生成框架?具体来说:(1)避免扩散模型与ERP之间的i.i.d.矛盾;(2)用同一架构和目标函数同时处理T2P和PO任务,无需任务特定的数据工程。

方法详解

整体框架

PAR基于掩码自回归建模(MAR),整体pipeline为: - 输入:全景图经VAE编码器压缩为latent表示,patchify后得到visual token序列 - 掩码编码器:随机掩码一部分token,未掩码token与文本嵌入(Phi-2编码)在编码器中融合 - 解码器:编码器输出传入解码器,与掩码token交互,输出条件信号\(z\) - 去噪MLP:轻量级MLP \(\epsilon_\theta\)\(z\)为条件,对噪声污染的latent进行去噪,生成连续token(而非离散token,减少量化误差) - VAE解码器:还原为像素空间全景图

关键统一思想:T2P就是\(\mathcal{S}_k = \emptyset\)(所有token都需要生成),PO就是\(\mathcal{S}_k \neq \emptyset\)(已知区域的token作为条件),两者在MAR框架下自然统一。传统raster-scan AR无法处理PO任务(因为已知区域不一定在序列开头),而MAR允许任意顺序生成,完美解决这一问题。

关键设计

  1. 循环平移一致性损失(Translation Consistency Loss):ERP全景图具有水平循环平移等变性——将图像水平平移\(v\)像素后,语义内容不变(只是起始经度变了)。作者利用这一性质,对原始输入\((x, \epsilon, M)\)和平移后的输入\((\mathcal{T}_v(x), \mathcal{T}_v(\epsilon), \mathcal{T}_v(M))\)分别前向传播,强制两个输出满足等变关系:\(\mathcal{L}_{consistency} = M' \circ ||\mathcal{T}_v(y) - y'||^2\)。这迫使模型学会ERP的循环特性。注意:此约束仅对全景图成立;透视图平移会引入不连续边界,语义不再等价。

  2. 双空间循环填充(Dual-space Circular Padding):VAE在编码/解码时,边缘像素的感受野不完整(只有单侧上下文),导致左右边界不连续。解决方案是在两个空间做循环填充:

  3. Pre-padding(像素空间):VAE编码前,裁剪图像左右\(rW/2\)宽度的区域拼接到另一侧,使编码器边缘有充分上下文→保证语义级连续性
  4. Post-padding(latent空间):VAE解码前,在latent上做同样操作→保证像素级平滑过渡

变换后丢弃padding区域,公式:\(C_r(x) = \text{concat}(x[...,-rW/2:], x, x[...,:rW/2])\)

  1. 基于NOVA的初始化:使用NOVA(无向量量化的自回归视频生成模型)作为预训练初始化,分辨率512×1024,仅需20K迭代微调。

损失函数 / 训练策略

总损失:\(\mathcal{L} = \mathcal{L}_{va} + \lambda \mathcal{L}_{consistency}\),其中\(\lambda = 0.1\)

  • \(\mathcal{L}_{va}\):标准去噪损失,仅在掩码区域计算
  • \(\mathcal{L}_{consistency}\):循环平移一致性损失

训练细节:batch size 32, AdamW, lr=5e-5, 线性调度, 推理时CFG=5, AR步数64步, 去噪步数25步。

实验关键数据

Text-to-Panorama(Matterport3D)

方法 类型 参数量 FAED↓ FID↓ CS↑ DS↓
PanFusion DM - 5.12 45.21 30.29 2.67
DiffPano DM - 10.03 53.29 30.31 6.16
UniPano DM - 5.87 44.74 30.45 0.77
Text2Light AR 0.8B 68.90 70.42 27.90 7.55
PanoLlama AR 0.8B 33.15 103.51 32.54 13.99
PAR (ours) AR 0.3B 3.39 41.15 30.21 0.58
PAR (ours) AR 0.6B 3.34 39.31 30.34 0.57
PAR (ours) AR 1.4B 3.75 37.37 30.41 0.58

Panorama Outpainting(Matterport3D)

方法 FID↓ FID-h↓
AOG-Net 83.02 37.88
2S-ODIS 52.59 35.18
PAR w/o prompt 41.63 25.97
PAR w/ prompt 32.68 12.20

推理速度对比(PAR-0.3B vs PanFusion)

方法 推理速度(sec/img) FID
PanFusion 28.91 45.21
PAR-0.3B 10.03 41.15

消融实验要点

  • 一致性损失:去掉后FID从37.37升到39.55(+2.18),说明一致性损失对生成质量有明显改善
  • 循环填充:pre-padding保证语义级连续性(没有pre-padding时即使post-padding很大也无法修复语义断裂),post-padding保证像素级平滑。\(r_{pre}=0.25\), \(r_{post}=0.125\)后DS基本收敛
  • 可扩展性:0.3B→0.6B→1.4B,FID持续下降(41.15→39.31→37.37),视觉质量也随参数和训练计算量提升而改善
  • CFG系数:CFG=5最优,CFG=3时FID=40.04,CFG=10时FID=39.76,过大过小都不好
  • 去噪步数:25步最优(FID=40.19),10步和50步都稍差
  • 循环填充无额外计算开销:padding主要影响VAE部分,transformer和MLP推理时间几乎不变(padding ratio 0~0.5,推理时间2.99~3.05 sec/img)
  • Structured3D数据集:PAR-0.3B FID=47.02远优于PanoLlama的125.35
  • OOD泛化:在SUN360零样本outpainting上,PAR FID=127.01优于Diffusion360的140.91;零样本T2P的DS=0.63优于StitchDiffusion的1.12

亮点

  • 理论驱动的方法选择:不是简单堆技术,而是从ERP违反i.i.d.假设这一根本矛盾出发,选择AR建模路线,附录给出了严格数学证明
  • 优雅的任务统一:T2P和PO的统一不需要任何数据工程,仅通过控制已知token集合\(\mathcal{S}_k\)即可切换,甚至零样本支持编辑任务
  • 双空间循环填充:简洁有效,在像素和latent两个空间分别处理,互补解决语义和像素级不连续
  • 循环平移一致性:巧妙利用ERP的几何先验,不增加推理开销(仅训练时使用)
  • 推理速度优势:0.3B模型比PanFusion快约3倍,同时FID更低
  • 连续token设计:使用连续token+MLP去噪,避免了离散token的量化误差

局限性 / 可改进方向

  • 小物体细节不足:作者承认在桌椅等小物体细节上仍有失败案例(Fig.15)
  • 数据稀缺:全景图数据远少于透视图数据,限制了模型质量的进一步提升,作者指出在更大规模真实全景数据上训练可能缓解
  • 分辨率有限:目前固定在512×1024,高分辨率全景图生成未探索
  • 极区模糊:Structured3D实验显示极区(天花板/地板)生成质量较低,但作者论证这是数据集本身特性
  • 垂直方向一致性:循环填充和一致性损失主要关注水平方向,垂直方向(南北极→赤道)的畸变适应尚未专门处理
  • 生成内容的真实感差距:与真实全景图相比,纹理和细节仍有差距

与相关工作的对比

维度 PanFusion (CVPR 2024) Omni2 (2025) PAR (本文)
基础模型 Stable Diffusion 扩散模型 NOVA (MAR)
i.i.d.问题 存在 存在 避免
任务统一 仅T2P T2P+PO但需数据工程 T2P+PO+编辑,无需数据工程
架构 双分支(全景+透视) 统一但复杂 单一编解码器
推理速度 28.91s - 10.03s
FID 45.21 - 37.37 (1.4B)

与PanoLlama/Text2Light等AR方法相比,PAR使用MAR而非raster-scan,支持任意位置生成,且质量远超(FID 37.37 vs 103.51/70.42)。

启发与关联

  • 分层4K全景分割用于具身智能的空间推理增强相关:PAR生成的高质量全景图可作为具身智能训练的数据增强来源
  • MAR框架的灵活性(通过控制\(\mathcal{S}_k\)统一多任务)可迁移到其他需要统一条件/非条件生成的场景
  • 循环平移一致性的思路可推广到其他具有等变性先验的数据(如球面数据、周期信号等)
  • 双空间padding的思路可用于其他需要VAE处理周期性/循环边界数据的场景

评分

  • 新颖性: ⭐⭐⭐⭐ 从i.i.d.矛盾出发选择MAR路线有理论深度,但MAR本身非原创
  • 实验充分度: ⭐⭐⭐⭐ T2P和PO两个任务+消融+OOD+编辑+速度分析,较全面
  • 写作质量: ⭐⭐⭐⭐ 动机清晰、理论推导严谨(附录证明),方法描述流畅
  • 价值: ⭐⭐⭐⭐ 为全景图生成提供了新范式,统一化设计有实用价值,但领域相对小众