Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas¶

会议: CVPR 2026
arXiv: 2603.28980
代码: 项目主页
领域: 3D视觉 / 场景生成
关键词: 全景图生成, 3D场景合成, 扩散模型, 多视角一致性, 沉浸式场景

一句话总结¶

提出 Stepper 框架，通过逐步生成多视角全景图并结合前馈式3D重建管线，实现文本驱动的高保真沉浸式3D场景生成，在PSNR上比现有方法平均提升3.3 dB。

研究背景与动机¶

领域现状：从文本或图像合成可探索的沉浸式3D场景是计算机视觉的核心任务，在AR/VR和空间计算中有广泛应用。目前主流方法分为两类：一是自回归扩展方法（如DiffDreamer、Text2Room），利用图像/视频模型逐步填充新视角；二是全景提升方法（如HoloDreamer、Matrix-3D），将360°全景直接提升至3D空间。

现有痛点：自回归方法因依赖局部视场的透视图像，会产生上下文漂移（context drift），随着扩展步数增加，几何误差积累、视觉保真度下降。全景提升方法虽然在投影中心附近质量较好，但对遮挡区域（disoccluded regions）无能为力，远离原点渲染时会出现模糊和拉伸。全景视频生成方法（如Matrix-3D）虽然一致性好，但受限于视频生成模型的计算开销，分辨率只能达到1440×720，细节严重不足。

核心矛盾：视觉保真度（fidelity）与可探索性（explorability）之间存在根本性trade-off——高质量但不能走远 vs. 能走远但质量差。

本文目标 如何在保持高分辨率、高保真度的同时，实现大基线的场景探索？

切入角度：作者观察到全景图本身是强大的场景上下文表示（覆盖360°信息），而cubemap表示可以将全景图分解为标准透视图像，因此可以直接复用预训练的2D图像扩散模型进行高分辨率全景图生成，避免了视频模型的分辨率瓶颈。

核心 idea：将场景扩展重新定义为多视角cubemap生成问题——每次向前"迈一步"生成完整的新视角全景图，兼顾高分辨率和全局一致性。

方法详解¶

整体框架¶

Stepper 由三个核心组件构成：(1) 多视角全景扩散模型，从输入全景图生成前方固定距离处的新视角全景图；(2) 基于前馈重建模型 MapAnything 的几何重建管线，将多个全景图提升为一致的3D点云；(3) 3D高斯溅射（3DGS）优化，将点云转化为可实时渲染的场景表示。整个流程为：文本→CubeDiff生成初始全景→多步自回归扩展→MapAnything重建点云→3DGS优化→实时探索。

关键设计¶

多视角全景扩散模型（Multi-view Panorama Diffusion）:
- 功能：从输入全景图 \(P_{in}\) 生成固定步长 \(d=0.25m\) 前方的新视角全景图 \(P_{nv}\)
- 核心思路：将两张全景图各自分解为6个cubemap面（共12张透视图），设置batch size \(t=12\) 直接输入预训练的LDM模型。关键创新在于膨胀（inflate）LDM深层的self-attention层，将token序列从 \((bt) \times (hw) \times l\) 扩展到 \(b \times (thw) \times l\)，使每个cubeface的token能attend到所有其他面（包括自身全景和另一张全景的所有面），确保跨视角和跨全景的一致性。同时拼接UV坐标位置编码和全景来源标记作为额外条件
- 设计动机：cubemap表示消除了等距矩形投影的极点畸变，且每个面都是标准透视图像（90° FOV），与预训练数据分布一致，无需从头训练。全景级别的上下文覆盖完整场景，根本性地减少了上下文漂移
前馈式几何重建管线:
- 功能：将多张生成的全景图转化为一致的3D点云
- 核心思路：不使用易出错的单目深度估计对齐，而是直接用前馈SfM模型 MapAnything 处理从全景图中提取的透视视图。为了匹配MapAnything的训练数据分布，设计了特殊的视角提取模式——从水平cubeface向上下各旋转45°取视图，确保视图间有充足的重叠。为控制点云规模，采用迭代式构建策略：利用PyTorch3D的点云渲染器检查新全景图引入的点是否已在之前的全景中可见，仅添加此前未观测到的点
- 设计动机：避免了单目深度估计器在球面数据上的畸变问题，同时端到端的SfM方法提供了比深度对齐更稳健的多视角几何一致性
3DGS优化与逐步场景探索:
- 功能：将点云转化为可实时渲染的3DGS表示，并支持自回归多步探索
- 核心思路：用MapAnything的精确点云初始化3DGS，采用简化版MCMC-GS优化策略——固定高斯位置不变，仅优化每个高斯的颜色值作为外观表示。训练视图包括6个cubeface和额外8个透视视图。场景探索时，从初始全景出发，向四个方向各走 \(n\) 步，得到 \(1+4n\) 个全景视图覆盖大范围场景
- 设计动机：固定高斯位置利用了前馈模型提供的精确初始化，减少了欠约束问题的复杂度

损失函数 / 训练策略¶

训练数据方面，基于Infinigen程序化生成框架构建了大规模合成多视角全景数据集，包含约230,000对全景图（分辨率4096×2048），覆盖5000个室内外场景。扩散模型使用标准扩散损失在全景对的cubeface上进行微调，训练90,000步，batch size为1（12个cubeface），在4个ViperFish TPU上分片训练（共64个TPU），有效batch size为16。步长固定为 \(d=0.25m\)，因为实验发现固定步长比可调步长训练更稳定。

实验关键数据¶

主实验¶

方法	PSNR↑	SSIM↑	LPIPS↓
WorldExplorer	13.145	0.624	0.648
LayerPano3D	17.931	0.688	0.503
Matrix-3D	18.133	0.665	0.515
Stepper (Ours)	21.426	0.735	0.385

（平均结果，涵盖Infinigen室内/室外 + Blender场景三个子集）

消融实验¶

设置	效果
单全景 vs 多全景输入3DGS	多全景显著减少空洞，保持初始视角质量
可调步长方向	几何错误、纹理伪影增多
步长 d=0.5m vs d=0.25m	0.5m仍可生成高质量全景但细节保持能力略差

关键发现¶

在所有数据集和所有指标上全面超越基线方法，PSNR平均提升至少3.3 dB
SSIM 0.735 vs 次优 LayerPano3D 0.688；LPIPS 0.385 vs 次优 0.503
固定步长比可调步长效果更好——固定步长使学习任务更简单，生成质量更稳定
全景级上下文是减少漂移的关键：相比透视图的局部视场，全景图覆盖完整场景上下文，从源头上抑制了语义和几何不一致

亮点与洞察¶

范式创新：将场景扩展问题从"逐帧视频生成"转化为"多视角cubemap图像生成"，巧妙地绕过了视频模型的分辨率瓶颈，同时保持了全景的全局上下文优势
数据集贡献：构建了23万对多视角全景的大规模数据集，填补了该领域数据稀缺的空白，并提供了统一的定量评估基准
工程设计精细：MapAnything的视角提取模式设计（45°旋转取视图）、迭代式去重点云构建、固定高斯位置的简化3DGS优化，都是实用且经过验证的engineering contributions

局限与展望¶

步长固定为0.25m，对于不同尺度的场景可能不够灵活
当前仅支持四个水平方向步进，垂直方向（如楼梯场景）的探索能力有限
依赖Infinigen合成数据训练可能限制真实场景的泛化能力
自回归生成过程仍然存在一定的累积偏差，只是通过全景级上下文缓解而非根本解决
3DGS优化中固定高斯位置虽简化了问题，但在复杂遮挡区域可能不够灵活

评分¶

新颖性: ⭐⭐⭐⭐ — 将场景扩展重定义为多视角cubemap生成的思路新颖，但各组件（cubemap扩散、MapAnything、3DGS）均为已有技术的集成
实验充分度: ⭐⭐⭐⭐ — 定量和定性对比充分，提供了多个子集的评估和消融实验，但缺少用户研究和真实场景评估
写作质量: ⭐⭐⭐⭐⭐ — 逻辑清晰，图示精美，方法描述详尽
价值: ⭐⭐⭐⭐ — 数据集和统一基准的贡献对社区有长期价值，方法在实际应用（AR/VR场景生成）中有明确前景