跳转至

GGPT: Geometry Grounded Point Transformer

会议: CVPR 2026
arXiv: 2603.11174
代码: 有 (项目页: https://chenyutongthu.github.io/research/ggpt)
领域: 3D视觉 / 3D重建
关键词: 3D reconstruction, sparse-view, point transformer, multi-view geometry, feed-forward, SfM

一句话总结

提出 GGPT 框架,通过改进的轻量 SfM 管线获取几何一致但稀疏的 3D 点云,再用 3D Point Transformer 在三维空间中直接融合稀疏几何引导与稠密前馈预测,实现跨架构、跨数据集的显著泛化提升。

背景与动机

前馈 3D 重建网络 (DUSt3R → MASt3R → VGGT) 可一次前传直接从 RGB 预测稠密点图和相机参数,但缺乏显式多视约束导致多视几何不一致和精度不足,尤其在分布外场景 (医学/手术/人体) 中偏差严重。传统 SfM 几何一致但在宽基线/稀疏视角下脆弱且只能恢复稀疏点。此前融合几何与前馈预测的方法有两个关键限制: (1) 依赖伪 GT 的 SfM 点或密集视频序列,在真实稀疏场景不可用; (2) 在 2D 图像空间 (深度补全/图像 Transformer) 做refinement,无法实现真正的跨视一致性。

核心问题

如何在 3D 空间中将 SfM 的几何精度与前馈网络的稠密完整性有机结合,实现无需微调就能泛化的稀疏视角 3D 重建?

方法详解

整体框架

两阶段设计: (1) 改进 SfM: 用密集匹配器 (RoMa + UFM) + 稀疏 BA + DLT 三角化高效获取几何一致稀疏点 \(\mathbf{X}_s\); (2) GGPT: 3D Point Transformer V3 在全局坐标系中联合处理 \(\mathbf{X}_s\) 和前馈稠密预测 \(\mathbf{X}_d\),预测残差修正,输出精炼后的稠密重建。

关键设计

  1. 改进 SfM 管线: 用前馈模型初始化 → 密集特征匹配 (RoMa + UFM) 获取全局对应 → 循环一致性过滤 → 选取高置信匹配做稀疏 BA (仅 2048 点/视图) → 用较低阈值的匹配做 DLT 三角化获取更密集的 \(\mathbf{X}_s\)。流程比传统 SfM 更高效精确。
  2. 几何引导编码: 稠密点 \(\mathbf{x}_d\) 的嵌入不仅包含自身位置编码,还包含其对应稀疏引导点 \(\mathbf{x}_{d \to s}\) 的位置编码和偏移量 \(\Delta_{d \to s} = \mathbf{x}_{d \to s} - \mathbf{x}_s\)。这让网络感知稠密预测与几何先验间的差异。
  3. 3D 空间直接注意力: 用 PTv3 (53M 参数,远小于 2D ViT 的 ~300M) 在 3D 近邻上做 patch-wise 自注意力,空间邻近性而非像素坐标定义感受野,天然保证多视一致性。
  4. Patch-based 处理: 将场景分为重叠立方体块 (半径 = 0.2 × 场景半径),每块独立处理 (最多 40 万点),重叠区取平均。

损失函数 / 训练策略

  • 置信度加权回归: \(\mathcal{L}_{conf} = \sum c \|\hat{\mathbf{x}} - \mathbf{x}_{GT}\| - \alpha \log c\),异方差形式让模型在不确定区域降低权重
  • 恒等一致性: \(\mathcal{L}_{id} = \sum \|\hat{\mathbf{x}} - \mathbf{x}_{d \to s}\|\),鼓励有对应的稠密点向几何引导对齐
  • 训练于 ScanNet++ 上 20k 序列,8 块 GH200 训练一天,\(\lambda_{id}=1, \alpha=0.2\)

实验关键数据

方法 ScanNet++ 8v ETH3D 8v T&T 8v
VGGT 19/32 23/36 25/39
VGGT + Ours 45/60 47/61 42/57
Pi3 56/71 25/41 26/42
Pi3 + Ours 56/72 36/53 32/50
MapAnything 38/57 7/15 9/20
MapAnything + Ours 48/64 33/45 40/55

(AUC@5/10 cm ↑,8视角)

  • 域外数据: 4D-DRESS 上 VGGT AUC@1/5cm 10/45 → +Ours 66/77; MV-dVRK 8/33 → 45/61
  • 仅在 ScanNet++ + VGGT 预测上训练,无需微调即可提升 5 种不同方法在 5 个数据集上的表现

消融实验要点

  • 3D vs 2D refinement: PTv3 在跨域和域外数据集上显著优于 2D Transformer 方案 (VGGT/MapAnything 改造版)
  • 编码消融: 去掉 \(\mathbf{X}_s\) 引导 → 域内可学习去噪但域外崩溃; 去掉对应编码 \(\mathbf{x}_{d \to s}\) → 最关键组件
  • Patch 大小: r=0.2 最优,更小的 patch 增强细节精度和泛化 (类似数据增强效果)
  • SfM 消融: 密集匹配器 >> 稀疏匹配器 (MASt3R); DLT 比 RANSAC 三角化快数百倍而精度相当; 稀疏 BA 512 点即够用

亮点 / 我学到了什么

  • 在 3D 空间而非 2D 图像空间做几何融合是本质性提升,跨域泛化优势巨大
  • "仅训练一个配置,无需微调即可改进多种前馈方法" 的通用性设计理念很有价值
  • 稀疏 BA + DLT 的分离策略简洁高效——非线性优化只用于高置信稀疏点,三角化用线性方法处理全部匹配

局限性 / 可改进方向

  • SfM 与 GGPT 顺序执行,SfM 错误会传播到 refinement
  • Patch 分块处理可能产生拼接伪影和不连续性
  • 仅在室内场景训练,大规模室外场景/多于 16 视角场景未验证
  • 无纹理区域如果缺乏 SfM 引导,精度提升有限

与相关工作的对比

  • POW3R / MapAnything: 在 2D 图像 token 上融合几何信号,域内强但跨域差; GGPT 的 3D 架构泛化更好
  • MASt3R-SfM: 用 MASt3R 稀疏匹配 + 联合优化稠密点,但匹配稀疏限制了精度; GGPT 的 SfM 用密集匹配器获取更多约束
  • COLMAP-style SfM: 增量式重建效率低; 本文全局优化 + 前馈初始化简高效

评分

  • 新颖性: ⭐⭐⭐⭐ (3D 空间直接融合稀疏几何与稠密预测,编码设计巧妙)
  • 实验充分度: ⭐⭐⭐⭐⭐ (5 种方法 × 5 数据集 + 域外 + 深度消融 + SfM 消融)
  • 写作质量: ⭐⭐⭐⭐⭐ (结构清晰,实验全面,补充材料详尽)
  • 价值: ⭐⭐⭐⭐ (通用 3D 重建后处理,实用性强)