GenPC: Zero-shot Point Cloud Completion via 3D Generative Priors¶
会议: CVPR 2025
arXiv: 2502.19896
代码: 无
领域: 3D视觉
关键词: 点云补全, 零样本, 3D生成先验, 深度提示, 几何保持融合
一句话总结¶
提出 GenPC 零样本点云补全框架,通过 Depth Prompting 模块将部分点云转化为深度图再生成 RGB 图像作为 Image-to-3D 模型的输入,再通过 Geometric Preserving Fusion 模块将生成的 3D 形状与原始点云对齐融合,实现了比 SDS 优化方法更快更好的真实世界扫描补全。
研究背景与动机¶
领域现状:基于学习的点云补全方法(PoinTr、SnowflakeNet 等)在合成数据集上表现出色,但严重依赖训练数据的分布,对真实世界扫描的泛化能力有限。SDS-Complete 首次尝试使用 2D 扩散先验进行零样本补全,但需要从头优化 SDF/高斯表示,耗时且几何细节粗糙。
现有痛点:(1) 训练式方法在分布外的真实扫描上性能大幅退化,即使是训练过的类别也因域差异导致效果不佳;(2) SDS 优化耗时数分钟到数小时,且 SDS 损失往往只能产生粗糙的几何细节;(3) 现有方法对尺度变化敏感,输入尺度改变时输出不稳定;(4) 2D 扩散先验是隐式的,无法提供精确的 3D 几何信息。
核心矛盾:高质量零样本补全需要强大的 3D 先验,但 2D 扩散模型只能提供隐式的 2D 先验,而前馈 3D 生成模型需要图像输入而非点云。
本文目标 如何利用前馈 3D 生成模型(如 LGM、InstantMesh)的显式 3D 先验来完成零样本点云补全?关键子问题:(1) 如何从点云生成适合 Image-to-3D 模型的图像输入 (2) 如何将生成的 3D 形状与原始点云对齐并保持原始几何。
切入角度:前馈 3D 生成模型已经具备从单张图像秒级生成高质量 3D 物体的能力和强泛化性,作者观察到可以用深度图作为"跳板",将点云转化为图像,从而桥接点云和 Image-to-3D 模型之间的模态鸿沟。
核心 idea:用深度图做跳板将部分点云转化为 Image-to-3D 模型能接受的 RGB 输入,利用前馈 3D 生成模型的显式几何先验实现快速高质量的零样本补全。
方法详解¶
整体框架¶
GenPC 的流程分为两个主要模块:(1) Depth Prompting 模块将部分点云转化为深度图,再通过 ControlNet 生成 RGB 图像,送入 Image-to-3D 模型生成完整 3D 形状;(2) Geometric Preserving Fusion 模块通过动态尺度适配将生成形状与原始点云对齐,可选地通过 SDS 优化进一步精炼。输入为部分点云 \(P_{in}\) 和文本提示 \(T_{in}\),输出为完整点云 \(P_{out}\)。
关键设计¶
-
Depth Prompting 模块:
- 功能:从部分点云生成适合 Image-to-3D 模型的 RGB 图像输入
- 核心思路:分三步完成——(a) 视点选择:在点云周围均匀放置 M 个相机,对每个相机进行球面翻转得到镜像点云 \(\hat{P_{in}}\),构建 \(\hat{P_{in}} \cup V_i\) 的凸包,凸包上包含最多可见点的相机即为扫描视点 \(V_{scan}\)。(b) 深度补全:从 \(V_{scan}\) 投影获得稀疏深度图 \(D_{raw}\),用预训练 2D 扩描模型填充缺失区域得到完整深度图 \(D_c\)(先用大像素投影获取全覆盖 mask \(M_{FULL}\),再对 \(M_{FULL}\) 和 \(\neg D_{raw}\) 做异或获取补全 mask)。(c) 图像生成:将 \(D_c\) 和文本提示 \(T_{in}\) 输入 ControlNet 生成对应 RGB 图像 \(I_{gen}\)
- 设计动机:基于距离的视点估计方法可能选到反向视点导致深度翻转;凸包方法通过几何推理避免了这一问题。深度补全解决了稀疏点云(如 KITTI LiDAR 扫描)投影后深度图过于稀疏的问题
-
动态尺度适配(Dynamic Scale Adaptation):
- 功能:将生成的 3D 形状与原始部分点云在姿态和尺度上对齐
- 核心思路:先用 \(I_{gen}\) 上色 \(P_{in}\) 得到彩色部分点云 \(P_{partial}\),两者归一化到 [-0.5, 0.5]。在 [0.8, 1.2] 范围内以 0.1 间隔缩放 \(P_{gen}\),对每个尺度执行 ICP 配准,综合评估几何 Chamfer Distance 和 RGB Chamfer Distance:\(\arg\min_{s} (\alpha \cdot CD_{XYZ} + \beta \cdot CD_{RGB})\)。选择最优配准结果,删除 \(P_{gen}\) 中靠近 \(P_{partial}\) 的点避免重叠,得到初步完整点云 \(P_{all}\)
- 设计动机:生成模型输出的 3D 形状与输入点云在尺度和姿态上通常不一致,直接对齐会浪费丰富的几何先验。利用颜色作为语义信息辅助对齐(不同部位颜色不同),提升融合准确性
-
SDS 精炼(可选):
- 功能:进一步消除多阶段流程的累积误差,优化缺失区域的几何
- 核心思路:将 \(P_{all}\) 初始化为 3D 高斯:部分区域 \(G_{partial}\) 的坐标、颜色、尺度、不透明度全部冻结以保持原始几何;缺失区域 \(G_{miss}\) 的尺度和不透明度固定,颜色低学习率微调,坐标作为主要优化目标。从 \(V_{scan}\) 渲染参考图像 \(I_{optim}\),从随机视点渲染 \(\tilde{I}^i_{optim}\),使用 Zero123 的 SDS 损失优化 \(G_{miss}\)。同时用保持损失 \(L_{Presv} = w_1 \cdot MSE(I_{optim}, I^i_{optim}) + w_2 \cdot MSE(D_{optim}, D^i_{optim})\) 防止优化过程影响部分区域
- 设计动机:前面步骤的误差会累积(视点估计→深度补全→图像生成→3D生成→对齐),SDS 精炼可以修正这些累积误差。分区域设置高斯参数是关键——冻结原始部分保证输入几何不变,只优化缺失部分
损失函数 / 训练策略¶
GenPC 是一个零样本框架,无需针对特定数据集训练。核心损失包括:ICP 对齐的综合 CD(几何+RGB)、SDS 损失(可选)、保持损失。SDS 精炼步骤可选,不用 SDS 时也能获得有竞争力的结果。
实验关键数据¶
主实验(Redwood 真实扫描数据集)¶
| 方法 | 平均 CD↓ | 平均 EMD↓ | 类型 |
|---|---|---|---|
| GenPC | 1.74 | 2.88 | 零样本 |
| GenPC (w/o Refining) | 1.98 | 3.16 | 零样本 |
| SDS-Complete | 2.72 | 4.06 | 零样本 |
| PoinTr | 2.89 | 5.24 | 训练式 |
| SnowflakeNet | 2.96 | 5.64 | 训练式 |
| AdaPoinTr | 4.45 | 6.19 | 训练式 |
消融实验¶
| 配置 | CD↓ | EMD↓ | 说明 |
|---|---|---|---|
| Full model | 1.74 | 2.88 | 完整 GenPC |
| A: w/o 视点选择(距离法) | 2.44 | 3.79 | 可能选错视点导致深度翻转 |
| B: w/o ControlNet | 4.31 | 6.80 | 无颜色信息严重影响后续操作 |
| C: w/o 深度补全 | 2.23 | 3.60 | 密集点云还行,稀疏时严重退化 |
| D: w/o 3D 生成模型 | 4.65 | 6.13 | 用高斯噪声替代,证明先验关键 |
| E: w/o 动态尺度适配 | 4.38 | 4.52 | 直接对齐浪费几何先验 |
| F: w/o SDS 优化 | 1.98 | 3.16 | 仍有竞争力,SDS 主要精炼细节 |
关键发现¶
- GenPC 大幅超越所有方法:在 Redwood 上 CD 比 SDS-Complete 降低 36%,EMD 降低 29%,说明显式 3D 先验远优于隐式 2D 先验
- 训练式方法全面落败:即使是训练过的类别(椅子、沙发),PoinTr/SnowflakeNet/AdaPoinTr 在真实扫描上也不如 GenPC,说明合成-真实域差异巨大
- 3D 生成模型和动态尺度适配是最关键的两个模块:去掉它们后 CD 分别升到 4.65 和 4.38,影响远大于其他模块
- 深度补全对稀疏点云至关重要:在密集的 Redwood 上影响中等(2.23 vs 1.74),但在稀疏的 ScanNet 上差距巨大(3.57 vs 1.62)
- SDS 精炼是可选的:不用 SDS 时 CD=1.98 已经很强,SDS 主要改善细节质量
亮点与洞察¶
- 用深度图做模态桥接的巧妙设计:点云→深度图→RGB图→3D形状的模态转换链路简洁有效,将前馈 3D 生成模型的强大能力嫁接到了点云补全任务上
- 凸包视点选择:将扫描视点估计问题形式化为隐藏点去除问题,通过球面翻转+凸包构建避免了深度翻转,比简单的距离法鲁棒得多
- 颜色作为语义信号辅助对齐:在 ICP 配准中加入 RGB Chamfer Distance 作为额外监督,利用了不同部位颜色差异提供的语义约束,这一技巧可迁移到其他点云配准场景
- 分区高斯参数设置:冻结原始部分的高斯参数、只优化缺失部分,是保持输入几何的简洁有效方案
局限与展望¶
- 依赖文本提示来生成 ControlNet 图像,对于未知类别需要用户提供文本描述
- 多阶段流程存在误差累积:视点估计错误会导致后续全部失败
- Image-to-3D 模型生成的形状可能与输入点云类别一致但细节不同,融合后存在语义合理但几何不精确的问题
- SDS 精炼虽然可选但仍需分钟级时间,完全前馈的方案会更高效
- 对极度稀疏或遮挡严重的输入(面积很小),深度投影和视点选择可能都不可靠
相关工作与启发¶
- vs SDS-Complete:SDS-Complete 使用 2D 扩散模型的隐式先验从头优化 SDF,耗时且几何粗糙;GenPC 使用 3D 生成模型的显式先验做前馈推理,CD 降低 36%,速度大幅提升
- vs PoinTr / SnowflakeNet:训练式方法依赖合成数据,GenPC 零样本性能大幅超越,说明大规模预训练带来的泛化性优势
- vs Huang et al.:同样是零样本方法但使用 3DGS + Zero123 的 SDS 优化,速度慢且受 SDS 质量限制;GenPC 利用前馈 3D 模型避免了 SDS 的固有问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将前馈 3D 生成模型引入零样本点云补全,Depth Prompting 的桥接思路新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 三个真实数据集(Redwood/ScanNet/KITTI),详细消融覆盖所有模块
- 写作质量: ⭐⭐⭐⭐ 结构清晰,每个模块的设计动机和替代方案对比充分
- 价值: ⭐⭐⭐⭐ 为真实世界点云补全提供了实用的零样本解决方案,思路可推广到其他模态桥接任务
相关论文¶
- [CVPR 2025] PCDreamer: Point Cloud Completion Through Multi-view Diffusion Priors
- [CVPR 2025] Parametric Point Cloud Completion for Polygonal Surface Reconstruction
- [CVPR 2025] Cross-View Completion Models are Zero-shot Correspondence Estimators
- [CVPR 2025] SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
- [ICCV 2025] BUFFER-X: Towards Zero-Shot Point Cloud Registration in Diverse Scenes