RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations¶
日期: 2026-03-01
arXiv: 2603.01194
代码: 项目页面
领域: 3D视觉 / 3D重建
关键词: 3D reconstruction, novel view synthesis, feed-forward transformer, causal attention, KV-cache
一句话总结¶
RnG 提出统一的前馈 Transformer,通过"重建引导的因果注意力"机制将 3D 重建和生成在注意力层面解耦,把 KV-cache 作为隐式 3D 表示,从稀疏图像同时恢复已见几何并生成合理的未见结构,在重建和生成两个任务上达到 SOTA 且支持实时交互。
研究背景与动机¶
- 领域现状:从稀疏图像做 3D 重建已有长足进步(如 LRM、PixelNeRF),但这些方法的表示局限于已观测区域——看不到的部分不建模。
- 现有痛点:(a) 重建方法只恢复已见区域,未见几何为空;(b) 生成方法可以"想象"未见区域但重建精度不如专门重建方法;(c) 两者目前是分离的——重建和生成用不同模型
- 核心矛盾:重建要求"忠实"(只恢复看到的),生成要求"创造性"(补全没看到的),两者目标矛盾但在3D补全中都需要
- 切入角度:在注意力机制层面分离重建和生成——已见区域用重建注意力精确恢复,未见区域用生成注意力创造性补全
- 核心 idea:重建引导的因果注意力——将重建和生成在 attention 层面解耦,KV-cache 作为隐式 3D 表示,任意视角查询渲染
方法详解¶
整体框架¶
输入稀疏图像 → Transformer 编码器提取特征 → 重建引导的因果注意力分离处理已见/未见区域 → KV-cache 积累为隐式 3D 表示 → 给定任意查询视角,从 KV-cache 解码渲染 RGBD 输出。
关键设计¶
-
重建引导的因果注意力
- 做什么:在注意力层面区分"重建"(已见区域)和"生成"(未见区域)
- 核心思路:已见区域的 query 只 attend 到输入图像的对应特征(精确重建);未见区域的 query 通过因果注意力 attend 到所有已有信息(创造性生成)。因果性确保生成的一致性
- 设计动机:避免生成过程"污染"重建精度,同时让重建结果指导生成的合理性
-
KV-cache 作为隐式 3D 表示
- 做什么:将 Transformer 的 KV-cache 重新解释为 3D 场景的隐式表示
- 核心思路:随着处理更多输入视角,KV-cache 不断积累 3D 信息。任意新视角可以直接 query 这个 cache 渲染输出,无需重新前向推理
- 设计动机:实现实时交互——用户旋转视角时只需做一次 cache query
-
RGBD 联合输出
- 做什么:同时渲染颜色和深度
- 设计动机:深度信息使输出可直接用于 3D 应用(点云提取、场景编辑)
实验关键数据¶
主实验¶
| 方法 | 重建 PSNR | 生成 FID | 推理速度 |
|---|---|---|---|
| LRM | 好 | 无(只重建) | 快 |
| Zero-1-to-3 | 中 | 好 | 慢 |
| SV3D | 中 | 好 | 慢 |
| RnG | 最优 | 最优 | 实时 |
消融实验¶
| 配置 | 重建质量 | 生成质量 | 说明 |
|---|---|---|---|
| 统一注意力(不分离) | 中 | 中 | 两者互相干扰 |
| 重建 only | 好 | 无 | 不能补全 |
| 因果注意力分离 | 好 | 好 | RnG 完整方案 |
| 无 KV-cache(每次全推理) | 同上 | 同上 | 10× 慢 |
关键发现¶
- 重建和生成的注意力分离是效果的关键——统一attention下两者互相拖累
- KV-cache 复用使实时交互成为可能(>30 FPS)
- RGBD 联合输出比只输出 RGB+后处理深度质量更高
- 在 Objaverse 和 GSO 数据集上均验证了 SOTA
亮点与洞察¶
- "重建即指导生成"的优雅设计:已见区域的精确重建为未见区域的生成提供了强约束——如物体的整体风格、材质一致性
- KV-cache 的创新重解释:把 Transformer 的工程组件(KV-cache)提升为3D表示的理论概念
- 实时性:稀疏图像输入 → 实时完整 3D 浏览,对 3D 内容创建有直接应用价值
局限性 / 可改进方向¶
- 生成的未见区域在极端视角下可能不一致
- 当前处理的场景复杂度有限(主要是单物体)
- 未扩展到场景级重建+生成
相关工作与启发¶
- vs LRM: LRM 只做重建,RnG 统一了重建和生成
- vs Zero-1-to-3: Zero-1-to-3 生成新视角但不做精确重建,RnG 两者兼顾
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 因果注意力分离重建/生成的设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 双任务评估+消融+实时性验证
- 写作质量: ⭐⭐⭐⭐ 概念清晰,KV-cache 作为 3D 表示的论述有说服力
- 价值: ⭐⭐⭐⭐⭐ 统一重建和生成的框架对 3D 领域有重要意义