跳转至

RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

日期: 2026-03-01
arXiv: 2603.01194
代码: 项目页面
领域: 3D视觉 / 3D重建
关键词: 3D reconstruction, novel view synthesis, feed-forward transformer, causal attention, KV-cache

一句话总结

RnG 提出统一的前馈 Transformer,通过"重建引导的因果注意力"机制将 3D 重建和生成在注意力层面解耦,把 KV-cache 作为隐式 3D 表示,从稀疏图像同时恢复已见几何并生成合理的未见结构,在重建和生成两个任务上达到 SOTA 且支持实时交互。

研究背景与动机

  1. 领域现状:从稀疏图像做 3D 重建已有长足进步(如 LRM、PixelNeRF),但这些方法的表示局限于已观测区域——看不到的部分不建模。
  2. 现有痛点:(a) 重建方法只恢复已见区域,未见几何为空;(b) 生成方法可以"想象"未见区域但重建精度不如专门重建方法;(c) 两者目前是分离的——重建和生成用不同模型
  3. 核心矛盾:重建要求"忠实"(只恢复看到的),生成要求"创造性"(补全没看到的),两者目标矛盾但在3D补全中都需要
  4. 切入角度:在注意力机制层面分离重建和生成——已见区域用重建注意力精确恢复,未见区域用生成注意力创造性补全
  5. 核心 idea重建引导的因果注意力——将重建和生成在 attention 层面解耦,KV-cache 作为隐式 3D 表示,任意视角查询渲染

方法详解

整体框架

输入稀疏图像 → Transformer 编码器提取特征 → 重建引导的因果注意力分离处理已见/未见区域 → KV-cache 积累为隐式 3D 表示 → 给定任意查询视角,从 KV-cache 解码渲染 RGBD 输出。

关键设计

  1. 重建引导的因果注意力

    • 做什么:在注意力层面区分"重建"(已见区域)和"生成"(未见区域)
    • 核心思路:已见区域的 query 只 attend 到输入图像的对应特征(精确重建);未见区域的 query 通过因果注意力 attend 到所有已有信息(创造性生成)。因果性确保生成的一致性
    • 设计动机:避免生成过程"污染"重建精度,同时让重建结果指导生成的合理性
  2. KV-cache 作为隐式 3D 表示

    • 做什么:将 Transformer 的 KV-cache 重新解释为 3D 场景的隐式表示
    • 核心思路:随着处理更多输入视角,KV-cache 不断积累 3D 信息。任意新视角可以直接 query 这个 cache 渲染输出,无需重新前向推理
    • 设计动机:实现实时交互——用户旋转视角时只需做一次 cache query
  3. RGBD 联合输出

    • 做什么:同时渲染颜色和深度
    • 设计动机:深度信息使输出可直接用于 3D 应用(点云提取、场景编辑)

实验关键数据

主实验

方法 重建 PSNR 生成 FID 推理速度
LRM 无(只重建)
Zero-1-to-3
SV3D
RnG 最优 最优 实时

消融实验

配置 重建质量 生成质量 说明
统一注意力(不分离) 两者互相干扰
重建 only 不能补全
因果注意力分离 RnG 完整方案
无 KV-cache(每次全推理) 同上 同上 10× 慢

关键发现

  • 重建和生成的注意力分离是效果的关键——统一attention下两者互相拖累
  • KV-cache 复用使实时交互成为可能(>30 FPS)
  • RGBD 联合输出比只输出 RGB+后处理深度质量更高
  • 在 Objaverse 和 GSO 数据集上均验证了 SOTA

亮点与洞察

  • "重建即指导生成"的优雅设计:已见区域的精确重建为未见区域的生成提供了强约束——如物体的整体风格、材质一致性
  • KV-cache 的创新重解释:把 Transformer 的工程组件(KV-cache)提升为3D表示的理论概念
  • 实时性:稀疏图像输入 → 实时完整 3D 浏览,对 3D 内容创建有直接应用价值

局限性 / 可改进方向

  • 生成的未见区域在极端视角下可能不一致
  • 当前处理的场景复杂度有限(主要是单物体)
  • 未扩展到场景级重建+生成

相关工作与启发

  • vs LRM: LRM 只做重建,RnG 统一了重建和生成
  • vs Zero-1-to-3: Zero-1-to-3 生成新视角但不做精确重建,RnG 两者兼顾

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 因果注意力分离重建/生成的设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 双任务评估+消融+实时性验证
  • 写作质量: ⭐⭐⭐⭐ 概念清晰,KV-cache 作为 3D 表示的论述有说服力
  • 价值: ⭐⭐⭐⭐⭐ 统一重建和生成的框架对 3D 领域有重要意义