RayZer: A Self-supervised Large View Synthesis Model¶

会议: ICCV 2025
arXiv: 2505.00702
代码: Project Page
领域: 3D视觉
关键词: 自监督学习, 新视角合成, 相机位姿估计, Plücker光线, Transformer

一句话总结¶

提出 RayZer，一个无需任何3D监督（无相机位姿/无场景几何标注）的自监督多视角3D视觉模型，通过将图像解耦为相机参数和场景表示实现3D感知自编码，在新视角合成任务上达到甚至超越依赖位姿标注的"oracle"方法。

研究背景与动机¶

自监督学习已驱动了 LLM、VLM 和视觉生成领域的基础模型崛起，但 3D 视觉模型仍严重依赖真值3D几何和相机位姿标注。这些标注通常来自耗时的优化方法（如COLMAP），且并不总是准确。这种依赖限制了3D模型的学习可扩展性和有效性。

关键问题是：如果不提供任何3D监督，3D视觉模型能走多远？

现有方法的具体限制包括： - GS-LRM、LVSM 等"oracle"方法需要真值位姿进行训练和推理 - MegaSynth、Stereo4D 等使用合成数据扩展训练规模，但数据策划仍然费力 - COLMAP提供的位姿标注本身可能存在噪声，反而限制了依赖它的模型的上限 - RUST 等自监督方法使用隐式位姿表示，难以实现位姿-场景解耦，且不显式3D感知

RayZer 的核心洞察：用模型自身预测的相机位姿来渲染目标视图并提供光度监督，而不是使用真值位姿。这将自监督训练转化为一种3D感知的图像自编码问题。

方法详解¶

整体框架¶

RayZer 接收无位姿、无标定的多视角图像 \(\mathcal{I} = \{I_i \in \mathbb{R}^{H \times W \times 3} | i = 1, ..., K\}\) 作为输入，依次预测：（1）相机参数（内参+位姿）→（2）Plücker光线图 →（3）潜在场景表示 →（4）渲染新视角。全程纯Transformer架构，24层（相机估计8层，场景编码8层，渲染解码8层）。

自监督训练的关键信息流控制：将输入图像分为两个不重叠子集 \(\mathcal{I}_\mathcal{A}\)（用于场景重建）和 \(\mathcal{I}_\mathcal{B}\)（提供监督），避免平凡解。

关键设计¶

相机估计器 (Camera Estimator)：
- 使用可学习的相机token \(\mathbf{p} \in \mathbb{R}^{K \times d}\)（每视图一个），与图像token \(\mathbf{f} \in \mathbb{R}^{Khw \times d}\) 拼接后输入全自注意力Transformer层
- 选择一个参考视图（恒等旋转+零平移），其余视图预测相对位姿
- 旋转使用6D连续表示，通过MLP预测：\(p_i = \text{MLP}_{pose}([\mathbf{p}_i^*, \mathbf{p}_c^*])\)
- 内参用单一焦距值参数化：\(\text{focal} = \text{MLP}_{focal}(\mathbf{p}_c^*)\)
- 设计动机：低维、几何定义良好的SE(3)参数化有助于信息解耦；先预测位姿再重建场景（pose-first范式）提供了更好的互相正则化
Plücker光线桥接：将预测的SE(3)位姿和内参转换为像素对齐的Plücker光线图 \(\mathcal{R} \in \mathbb{R}^{K \times H \times W \times 6}\)。这是RayZer中唯一的3D先验，它同时编码了：
- 2D像素与光线的对齐关系
- 3D光线几何（方向和原点）
- 相机、像素和场景之间的物理关系

光线图经线性层token化后与图像token融合：\(\mathbf{x}_\mathcal{A} = \text{MLP}_{fuse}([\mathbf{f}_\mathcal{A}, \mathbf{r}_\mathcal{A}])\) - 关键细节：使用原始图像token \(\mathbf{f}\) 而非相机估计器输出的 \(\mathbf{f}^*\)，防止 \(\mathcal{I}_\mathcal{B}\) 的信息泄露

潜在集合场景表示与全Transformer渲染：
- 场景表示为可学习的token集合 \(\mathbf{z} \in \mathbb{R}^{L \times d}\)，不显式3D感知，3D属性完全通过学习获得
- 场景重建：\(\{\mathbf{z}^*, \mathbf{x}_\mathcal{A}^*\} = \mathcal{E}_{scene}(\{\mathbf{z}, \mathbf{x}_\mathcal{A}\})\)
- 渲染：给定目标相机的Plücker光线token \(\mathbf{r}\)，通过渲染解码器生成图像：\(\hat{I} = \text{MLP}_{rgb}(\mathbf{r}^*)\)
- 与传统渲染公式 \(v = R(\text{scene}, \text{ray})\) 类比，只是这里"渲染方程"是参数化的可学习模型

损失函数 / 训练策略¶

纯光度自监督损失：

\[\mathcal{L} = \frac{1}{K_\mathcal{B}} \sum_{\hat{I} \in \hat{\mathcal{I}}_\mathcal{B}} (\text{MSE}(I, \hat{I}) + \lambda \cdot \text{Percep}(I, \hat{I}))\]

其中 \(\lambda = 0.2\) 为感知损失权重。训练学习率 \(4 \times 10^{-4}\)，余弦调度器，50,000次迭代，batch size 256，分辨率 \(256 \times 256\)，patch size 16。两个子集 \(\mathcal{I}_\mathcal{A}\) 和 \(\mathcal{I}_\mathcal{B}\) 在训练中随机采样。

实验关键数据¶

主实验¶

数据集	方法	训练监督	需GT位姿	PSNR↑	SSIM↑	LPIPS↓
DL3DV	GS-LRM	2D+Camera	是	23.49	0.712	0.252
DL3DV	LVSM	2D+Camera	是	23.69	0.723	0.242
DL3DV	RayZer	2D only	否	24.36	0.757	0.209
RealEstate	GS-LRM	2D+Camera	是	24.25	0.770	0.227
RealEstate	LVSM	2D+Camera	是	27.00	0.851	0.157
RealEstate	RayZer	2D only	否	27.48	0.861	0.146
Objaverse	LVSM	2D+GT	是	32.34	0.950	0.050
Objaverse	RayZer	2D only	否	31.52	0.945	0.052

消融实验¶

配置	PSNR↑	SSIM↑	LPIPS↓	说明
RayZer (完整)	24.36	0.757	0.209	pose-first + Plücker + latent
3DGS表示	-	-	failed	显式3D表示训练不收敛
无Plücker光线,用SE(3)	22.73	0.687	0.249	缺少像素级条件
无显式位姿,用隐式特征	23.13	0.700	0.251	信息泄露+不可内插
Scene-first范式	13.31	0.338	0.732	先建场景再估位姿，崩溃

关键发现¶

RayZer在DL3DV和RealEstate上超越oracle方法：这些数据集的位姿来自COLMAP，本身有噪声。自监督学习可以找到比COLMAP更有利于视图合成的位姿空间
在Objaverse（完美GT位姿）上略低于LVSM：差距很小（32.34 vs 31.52），证实当GT位姿完美时oracle方法有优势
Pose-first范式至关重要：scene-first范式的PSNR仅13.31，完全崩塌
Plücker光线是关键3D先验：比直接编码SE(3)位姿效果好1.6dB PSNR
自监督学习的位姿可以进行几何内插，生成连续相机轨迹的新视角

亮点与洞察¶

自监督3D模型可媲美甚至超越有监督方法：这一反直觉的结果说明COLMAP位姿的噪声是有监督方法的瓶颈
极简的3D先验：唯一的3D先验就是Plücker光线结构，其余全由数据驱动学习
信息流控制精妙：使用原始图像token而非相机估计器输出，防止信息泄露；两子集分离确保非平凡解
潜在表示优于显式3D：3DGS表示完全无法收敛于自监督训练，验证了潜在表示在this设置下的必要性

局限与展望¶

学到的位姿空间与真实位姿空间不完全对应，限制了位姿估计的直接应用
连续视频帧训练效果好于无序图像集，说明对输入顺序仍有一定依赖
仅在256分辨率上训练和评估，高分辨率场景的表现有待验证
每个数据集单独训练，跨数据集的零样本泛化能力尚未验证
静态场景假设限制了对动态场景的处理能力

评分¶

新颖性: ⭐⭐⭐⭐⭐ 零3D监督下达到oracle级别性能，自监督3D学习的重要里程碑
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集(DL3DV/RealEstate/Objaverse)全面对比，消融+位姿分析透彻
写作质量: ⭐⭐⭐⭐⭐ 逻辑缜密，动机清晰，设计选择有充分理由
价值: ⭐⭐⭐⭐⭐ 证明了3D视觉模型摆脱监督学习的可行性，开辟新范式