GGPT: Geometry Grounded Point Transformer¶

会议: CVPR 2026
arXiv: 2603.11174
代码: 有 (项目页: https://chenyutongthu.github.io/research/ggpt)
领域: 3D视觉 / 3D重建
关键词: 3D reconstruction, sparse-view, point transformer, multi-view geometry, feed-forward, SfM

一句话总结¶

提出 GGPT 框架，通过改进的轻量 SfM 管线获取几何一致但稀疏的 3D 点云，再用 3D Point Transformer 在三维空间中直接融合稀疏几何引导与稠密前馈预测，实现跨架构、跨数据集的显著泛化提升。

背景与动机¶

前馈 3D 重建网络 (DUSt3R → MASt3R → VGGT) 可一次前传直接从 RGB 预测稠密点图和相机参数，但缺乏显式多视约束导致多视几何不一致和精度不足，尤其在分布外场景 (医学/手术/人体) 中偏差严重。传统 SfM 几何一致但在宽基线/稀疏视角下脆弱且只能恢复稀疏点。此前融合几何与前馈预测的方法有两个关键限制: (1) 依赖伪 GT 的 SfM 点或密集视频序列，在真实稀疏场景不可用; (2) 在 2D 图像空间 (深度补全/图像 Transformer) 做refinement，无法实现真正的跨视一致性。

核心问题¶

如何在 3D 空间中将 SfM 的几何精度与前馈网络的稠密完整性有机结合，实现无需微调就能泛化的稀疏视角 3D 重建？

方法详解¶

整体框架¶

两阶段设计: (1) 改进 SfM: 用密集匹配器 (RoMa + UFM) + 稀疏 BA + DLT 三角化高效获取几何一致稀疏点 \(\mathbf{X}_s\); (2) GGPT: 3D Point Transformer V3 在全局坐标系中联合处理 \(\mathbf{X}_s\) 和前馈稠密预测 \(\mathbf{X}_d\)，预测残差修正，输出精炼后的稠密重建。

关键设计¶

改进 SfM 管线: 用前馈模型初始化 → 密集特征匹配 (RoMa + UFM) 获取全局对应 → 循环一致性过滤 → 选取高置信匹配做稀疏 BA (仅 2048 点/视图) → 用较低阈值的匹配做 DLT 三角化获取更密集的 \(\mathbf{X}_s\)。流程比传统 SfM 更高效精确。
几何引导编码: 稠密点 \(\mathbf{x}_d\) 的嵌入不仅包含自身位置编码，还包含其对应稀疏引导点 \(\mathbf{x}_{d \to s}\) 的位置编码和偏移量 \(\Delta_{d \to s} = \mathbf{x}_{d \to s} - \mathbf{x}_s\)。这让网络感知稠密预测与几何先验间的差异。
3D 空间直接注意力: 用 PTv3 (53M 参数，远小于 2D ViT 的 ~300M) 在 3D 近邻上做 patch-wise 自注意力，空间邻近性而非像素坐标定义感受野，天然保证多视一致性。
Patch-based 处理: 将场景分为重叠立方体块 (半径 = 0.2 × 场景半径)，每块独立处理 (最多 40 万点)，重叠区取平均。

损失函数 / 训练策略¶

置信度加权回归: \(\mathcal{L}_{conf} = \sum c \|\hat{\mathbf{x}} - \mathbf{x}_{GT}\| - \alpha \log c\)，异方差形式让模型在不确定区域降低权重
恒等一致性: \(\mathcal{L}_{id} = \sum \|\hat{\mathbf{x}} - \mathbf{x}_{d \to s}\|\)，鼓励有对应的稠密点向几何引导对齐
训练于 ScanNet++ 上 20k 序列，8 块 GH200 训练一天，\(\lambda_{id}=1, \alpha=0.2\)

实验关键数据¶

方法	ScanNet++ 8v	ETH3D 8v	T&T 8v
VGGT	19/32	23/36	25/39
VGGT + Ours	45/60	47/61	42/57
Pi3	56/71	25/41	26/42
Pi3 + Ours	56/72	36/53	32/50
MapAnything	38/57	7/15	9/20
MapAnything + Ours	48/64	33/45	40/55

(AUC@5/10 cm ↑，8视角)

域外数据: 4D-DRESS 上 VGGT AUC@1/5cm 10/45 → +Ours 66/77; MV-dVRK 8/33 → 45/61
仅在 ScanNet++ + VGGT 预测上训练，无需微调即可提升 5 种不同方法在 5 个数据集上的表现

消融实验要点¶

3D vs 2D refinement: PTv3 在跨域和域外数据集上显著优于 2D Transformer 方案 (VGGT/MapAnything 改造版)
编码消融: 去掉 \(\mathbf{X}_s\) 引导 → 域内可学习去噪但域外崩溃; 去掉对应编码 \(\mathbf{x}_{d \to s}\) → 最关键组件
Patch 大小: r=0.2 最优，更小的 patch 增强细节精度和泛化 (类似数据增强效果)
SfM 消融: 密集匹配器 >> 稀疏匹配器 (MASt3R); DLT 比 RANSAC 三角化快数百倍而精度相当; 稀疏 BA 512 点即够用

亮点 / 我学到了什么¶

在 3D 空间而非 2D 图像空间做几何融合是本质性提升，跨域泛化优势巨大
"仅训练一个配置，无需微调即可改进多种前馈方法" 的通用性设计理念很有价值
稀疏 BA + DLT 的分离策略简洁高效——非线性优化只用于高置信稀疏点，三角化用线性方法处理全部匹配

局限性 / 可改进方向¶

SfM 与 GGPT 顺序执行，SfM 错误会传播到 refinement
Patch 分块处理可能产生拼接伪影和不连续性
仅在室内场景训练，大规模室外场景/多于 16 视角场景未验证
无纹理区域如果缺乏 SfM 引导，精度提升有限

与相关工作的对比¶

POW3R / MapAnything: 在 2D 图像 token 上融合几何信号，域内强但跨域差; GGPT 的 3D 架构泛化更好
MASt3R-SfM: 用 MASt3R 稀疏匹配 + 联合优化稠密点，但匹配稀疏限制了精度; GGPT 的 SfM 用密集匹配器获取更多约束
COLMAP-style SfM: 增量式重建效率低; 本文全局优化 + 前馈初始化简高效

评分¶

新颖性: ⭐⭐⭐⭐ (3D 空间直接融合稀疏几何与稠密预测，编码设计巧妙)
实验充分度: ⭐⭐⭐⭐⭐ (5 种方法 × 5 数据集 + 域外 + 深度消融 + SfM 消融)
写作质量: ⭐⭐⭐⭐⭐ (结构清晰，实验全面，补充材料详尽)
价值: ⭐⭐⭐⭐ (通用 3D 重建后处理，实用性强)