RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations¶

日期: 2026-03-01
arXiv: 2603.01194
代码: 项目页面
领域: 3D视觉 / 3D重建
关键词: 3D reconstruction, novel view synthesis, feed-forward transformer, causal attention, KV-cache

一句话总结¶

RnG 提出统一的前馈 Transformer，通过"重建引导的因果注意力"机制将 3D 重建和生成在注意力层面解耦，把 KV-cache 作为隐式 3D 表示，从稀疏图像同时恢复已见几何并生成合理的未见结构，在重建和生成两个任务上达到 SOTA 且支持实时交互。

研究背景与动机¶

领域现状：从稀疏图像做 3D 重建已有长足进步（如 LRM、PixelNeRF），但这些方法的表示局限于已观测区域——看不到的部分不建模。
现有痛点：(a) 重建方法只恢复已见区域，未见几何为空；(b) 生成方法可以"想象"未见区域但重建精度不如专门重建方法；(c) 两者目前是分离的——重建和生成用不同模型
核心矛盾：重建要求"忠实"（只恢复看到的），生成要求"创造性"（补全没看到的），两者目标矛盾但在3D补全中都需要
切入角度：在注意力机制层面分离重建和生成——已见区域用重建注意力精确恢复，未见区域用生成注意力创造性补全
核心 idea：重建引导的因果注意力——将重建和生成在 attention 层面解耦，KV-cache 作为隐式 3D 表示，任意视角查询渲染

方法详解¶

整体框架¶

输入稀疏图像 → Transformer 编码器提取特征 → 重建引导的因果注意力分离处理已见/未见区域 → KV-cache 积累为隐式 3D 表示 → 给定任意查询视角，从 KV-cache 解码渲染 RGBD 输出。

关键设计¶

重建引导的因果注意力
- 做什么：在注意力层面区分"重建"（已见区域）和"生成"（未见区域）
- 核心思路：已见区域的 query 只 attend 到输入图像的对应特征（精确重建）；未见区域的 query 通过因果注意力 attend 到所有已有信息（创造性生成）。因果性确保生成的一致性
- 设计动机：避免生成过程"污染"重建精度，同时让重建结果指导生成的合理性
KV-cache 作为隐式 3D 表示
- 做什么：将 Transformer 的 KV-cache 重新解释为 3D 场景的隐式表示
- 核心思路：随着处理更多输入视角，KV-cache 不断积累 3D 信息。任意新视角可以直接 query 这个 cache 渲染输出，无需重新前向推理
- 设计动机：实现实时交互——用户旋转视角时只需做一次 cache query
RGBD 联合输出
- 做什么：同时渲染颜色和深度
- 设计动机：深度信息使输出可直接用于 3D 应用（点云提取、场景编辑）

实验关键数据¶

主实验¶

方法	重建 PSNR	生成 FID	推理速度
LRM	好	无（只重建）	快
Zero-1-to-3	中	好	慢
SV3D	中	好	慢
RnG	最优	最优	实时

消融实验¶

配置	重建质量	生成质量	说明
统一注意力（不分离）	中	中	两者互相干扰
重建 only	好	无	不能补全
因果注意力分离	好	好	RnG 完整方案
无 KV-cache（每次全推理）	同上	同上	10× 慢

关键发现¶

重建和生成的注意力分离是效果的关键——统一attention下两者互相拖累
KV-cache 复用使实时交互成为可能（>30 FPS）
RGBD 联合输出比只输出 RGB+后处理深度质量更高
在 Objaverse 和 GSO 数据集上均验证了 SOTA

亮点与洞察¶

"重建即指导生成"的优雅设计：已见区域的精确重建为未见区域的生成提供了强约束——如物体的整体风格、材质一致性
KV-cache 的创新重解释：把 Transformer 的工程组件（KV-cache）提升为3D表示的理论概念
实时性：稀疏图像输入 → 实时完整 3D 浏览，对 3D 内容创建有直接应用价值

局限性 / 可改进方向¶

生成的未见区域在极端视角下可能不一致
当前处理的场景复杂度有限（主要是单物体）
未扩展到场景级重建+生成

评分¶

新颖性: ⭐⭐⭐⭐⭐ 因果注意力分离重建/生成的设计巧妙
实验充分度: ⭐⭐⭐⭐ 双任务评估+消融+实时性验证
写作质量: ⭐⭐⭐⭐ 概念清晰，KV-cache 作为 3D 表示的论述有说服力
价值: ⭐⭐⭐⭐⭐ 统一重建和生成的框架对 3D 领域有重要意义