RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations¶

会议: CVPR 2026
arXiv: 2603.01194
代码: https://npucvr.github.io/RnG
领域: 3D视觉 / 重建与生成
关键词: 3D重建, 新视角合成, KV-Cache, 因果注意力, 前馈Transformer

一句话总结¶

提出 RnG，一个统一的前馈 Transformer，通过重建引导的因果注意力机制将 KV-Cache 作为隐式 3D 表征，从少量无姿态图像中同时完成 3D 重建和新视角 RGBD 生成，推理速度比扩散方法快 100 倍以上。

研究背景与动机¶

领域现状：可泛化 3D 重建（DUSt3R、VGGT）能从稀疏图像恢复可见区域几何，但不建模未见区域。新视角合成（LVSM）可生成未见视角图像但缺乏一致的 3D 结构。
现有痛点：重建方法输出不完整（仅可见区域），NVS 方法缺乏 3D 一致性或依赖已知相机姿态。Matrix3D 虽统一两任务但扩散设计导致推理极慢（27秒/视角）。
核心矛盾：如何在单个模型中统一重建和生成，同时保持实时推理能力？
本文目标：利用 3D 重建基础模型的潜在 3D 理解能力，通过神经渲染激活并显式化这种理解。
切入角度：将重建先验迁移到生成（而非常见的生成先验辅助重建），是反向知识迁移。
核心 idea：因果注意力掩码使源视图 Token 不受目标视图影响，KV-Cache 自然成为可复用的隐式 3D 表征。

方法详解¶

整体框架¶

源视图图像经 DINO 提取 Token，目标视图编码为 Plücker 射线图。所有 Token 经 24 层交替的全局/帧注意力处理。源视图 Token 用于姿态估计，目标视图 Token 经 DPT 头生成 RGB 和点图。

关键设计¶

重建引导的因果注意力:
- 功能：在注意力层面解耦重建和生成任务
- 核心思路：引入二值掩码 \(M\)，禁止源视图 Query 关注目标视图 Key。源视图 Token 仅关注源视图（重建），目标视图 Token 关注所有视图（生成）。两个任务共享网络参数但通过注意力掩码分离。
- 设计动机：重建应引导生成但生成不应干扰重建。此设计确保给定不同目标视图时源视图重建结果一致。
KV-Cache 作为隐式 3D 表征:
- 功能：支持高效的两阶段推理
- 核心思路：因果注意力使源视图 Token 的处理独立于目标视图。因此可先缓存源视图的 K/V Token（重建阶段，~0.2s），后续对任意目标视角仅需前向目标 Token 并读取缓存（生成阶段，<0.1s）。
- 设计动机：KV-Cache 机制使同一场景的多视角生成极其高效，类似语言模型的自回归推理。
重建先验驱动的生成:
- 功能：利用 3D 重建知识提升新视角生成质量
- 核心思路：继承 VGGT 预训练权重和架构。RGB 头和点图头分别解码目标视角外观和几何。通过多视角点图积累可获得完整 3D 结构——如同"虚拟 3D 扫描仪"。
- 设计动机：实验证明重建先验迁移到生成是可行且有效的，比从扩散先验迁移更高效。

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{RGB} + \lambda_{pmap}\mathcal{L}_{pmap} + \lambda_c\mathcal{L}_{cam}\)。RGB 损失 = MSE + 感知损失；点图损失 = 不确定性加权 L1；姿态损失 = Huber loss。8 × A800 训练 40K 步。

实验关键数据¶

主实验¶

方法	姿态 RA@5↑	源深度 Rel↓	新视角深度 Rel↓	NVS PSNR↑	3D CD↓
RnG (无姿态)	85.1	0.584	0.717	26.28	0.0067
VGGT (无姿态)	74.2	5.96	-	-	0.0260
Matrix3D (无姿态)	43.8	9.43	9.96	18.74	0.0670
LVSM (需姿态)	-	-	-	27.52	-

消融实验¶

配置	NVS PSNR	说明
从头训练 (15K)	20.78	无重建先验
预训练初始化 (15K)	24.86	重建先验有效
全注意力 (无因果掩码)	24.86	性能相当但无法用 KV-Cache
有 KV-Cache	85ms推理	无 KV-Cache 213ms

关键发现¶

无姿态 RnG 在 NVS 上接近最佳需姿态方法 LVSM，同时提供姿态和 3D 几何
重建先验的重要性：预训练初始化 vs 从头训练相差 4+ dB
因果注意力不损失精度但实现 2.5× 推理加速（213ms → 85ms）
RnG 推理比 Matrix3D 快 300+ 倍（85ms vs 27s）

亮点与洞察¶

反向知识迁移：首次系统性展示重建先验→生成的有效性，挑战了"生成先验辅助重建"的传统范式
KV-Cache 的新解释：将语言模型的 KV-Cache 重新诠释为隐式 3D 表征，概念上优雅
"虚拟 3D 扫描仪"：通过积累多视角查询的点图即可获得完整 3D，无需显式 3D 重建算法

局限与展望¶

缺乏精细纹理细节（与扩散方法相比），可考虑引入图像生成预训练
世界原点定义依赖输入视角交叉，限制了手持设备的实际应用
从多视角积累 3D 可能引入噪声和冲突

评分¶

新颖性: ⭐⭐⭐⭐⭐ KV-Cache 作为 3D 表征的概念极具启发性
实验充分度: ⭐⭐⭐⭐ 多任务多指标全面评估 + 消融充分
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，架构图直观
价值: ⭐⭐⭐⭐⭐ 为统一 3D 重建与生成提供了高效范式