GenPC: Zero-shot Point Cloud Completion via 3D Generative Priors¶

会议: CVPR 2025
arXiv: 2502.19896
代码: 无
领域: 3D视觉
关键词: 点云补全, 零样本, 3D生成先验, 深度提示, 几何保持融合

一句话总结¶

提出 GenPC 零样本点云补全框架，通过 Depth Prompting 模块将部分点云转化为深度图再生成 RGB 图像作为 Image-to-3D 模型的输入，再通过 Geometric Preserving Fusion 模块将生成的 3D 形状与原始点云对齐融合，实现了比 SDS 优化方法更快更好的真实世界扫描补全。

研究背景与动机¶

领域现状：基于学习的点云补全方法（PoinTr、SnowflakeNet 等）在合成数据集上表现出色，但严重依赖训练数据的分布，对真实世界扫描的泛化能力有限。SDS-Complete 首次尝试使用 2D 扩散先验进行零样本补全，但需要从头优化 SDF/高斯表示，耗时且几何细节粗糙。

现有痛点：(1) 训练式方法在分布外的真实扫描上性能大幅退化，即使是训练过的类别也因域差异导致效果不佳；(2) SDS 优化耗时数分钟到数小时，且 SDS 损失往往只能产生粗糙的几何细节；(3) 现有方法对尺度变化敏感，输入尺度改变时输出不稳定；(4) 2D 扩散先验是隐式的，无法提供精确的 3D 几何信息。

核心矛盾：高质量零样本补全需要强大的 3D 先验，但 2D 扩散模型只能提供隐式的 2D 先验，而前馈 3D 生成模型需要图像输入而非点云。

本文目标 如何利用前馈 3D 生成模型（如 LGM、InstantMesh）的显式 3D 先验来完成零样本点云补全？关键子问题：(1) 如何从点云生成适合 Image-to-3D 模型的图像输入 (2) 如何将生成的 3D 形状与原始点云对齐并保持原始几何。

切入角度：前馈 3D 生成模型已经具备从单张图像秒级生成高质量 3D 物体的能力和强泛化性，作者观察到可以用深度图作为"跳板"，将点云转化为图像，从而桥接点云和 Image-to-3D 模型之间的模态鸿沟。

核心 idea：用深度图做跳板将部分点云转化为 Image-to-3D 模型能接受的 RGB 输入，利用前馈 3D 生成模型的显式几何先验实现快速高质量的零样本补全。

方法详解¶

整体框架¶

GenPC 的流程分为两个主要模块：(1) Depth Prompting 模块将部分点云转化为深度图，再通过 ControlNet 生成 RGB 图像，送入 Image-to-3D 模型生成完整 3D 形状；(2) Geometric Preserving Fusion 模块通过动态尺度适配将生成形状与原始点云对齐，可选地通过 SDS 优化进一步精炼。输入为部分点云 \(P_{in}\) 和文本提示 \(T_{in}\)，输出为完整点云 \(P_{out}\)。

关键设计¶

Depth Prompting 模块:
- 功能：从部分点云生成适合 Image-to-3D 模型的 RGB 图像输入
- 核心思路：分三步完成——(a) 视点选择：在点云周围均匀放置 M 个相机，对每个相机进行球面翻转得到镜像点云 \(\hat{P_{in}}\)，构建 \(\hat{P_{in}} \cup V_i\) 的凸包，凸包上包含最多可见点的相机即为扫描视点 \(V_{scan}\)。(b) 深度补全：从 \(V_{scan}\) 投影获得稀疏深度图 \(D_{raw}\)，用预训练 2D 扩描模型填充缺失区域得到完整深度图 \(D_c\)（先用大像素投影获取全覆盖 mask \(M_{FULL}\)，再对 \(M_{FULL}\) 和 \(\neg D_{raw}\) 做异或获取补全 mask）。(c) 图像生成：将 \(D_c\) 和文本提示 \(T_{in}\) 输入 ControlNet 生成对应 RGB 图像 \(I_{gen}\)
- 设计动机：基于距离的视点估计方法可能选到反向视点导致深度翻转；凸包方法通过几何推理避免了这一问题。深度补全解决了稀疏点云（如 KITTI LiDAR 扫描）投影后深度图过于稀疏的问题
动态尺度适配（Dynamic Scale Adaptation）:
- 功能：将生成的 3D 形状与原始部分点云在姿态和尺度上对齐
- 核心思路：先用 \(I_{gen}\) 上色 \(P_{in}\) 得到彩色部分点云 \(P_{partial}\)，两者归一化到 [-0.5, 0.5]。在 [0.8, 1.2] 范围内以 0.1 间隔缩放 \(P_{gen}\)，对每个尺度执行 ICP 配准，综合评估几何 Chamfer Distance 和 RGB Chamfer Distance：\(\arg\min_{s} (\alpha \cdot CD_{XYZ} + \beta \cdot CD_{RGB})\)。选择最优配准结果，删除 \(P_{gen}\) 中靠近 \(P_{partial}\) 的点避免重叠，得到初步完整点云 \(P_{all}\)
- 设计动机：生成模型输出的 3D 形状与输入点云在尺度和姿态上通常不一致，直接对齐会浪费丰富的几何先验。利用颜色作为语义信息辅助对齐（不同部位颜色不同），提升融合准确性
SDS 精炼（可选）:
- 功能：进一步消除多阶段流程的累积误差，优化缺失区域的几何
- 核心思路：将 \(P_{all}\) 初始化为 3D 高斯：部分区域 \(G_{partial}\) 的坐标、颜色、尺度、不透明度全部冻结以保持原始几何；缺失区域 \(G_{miss}\) 的尺度和不透明度固定，颜色低学习率微调，坐标作为主要优化目标。从 \(V_{scan}\) 渲染参考图像 \(I_{optim}\)，从随机视点渲染 \(\tilde{I}^i_{optim}\)，使用 Zero123 的 SDS 损失优化 \(G_{miss}\)。同时用保持损失 \(L_{Presv} = w_1 \cdot MSE(I_{optim}, I^i_{optim}) + w_2 \cdot MSE(D_{optim}, D^i_{optim})\) 防止优化过程影响部分区域
- 设计动机：前面步骤的误差会累积（视点估计→深度补全→图像生成→3D生成→对齐），SDS 精炼可以修正这些累积误差。分区域设置高斯参数是关键——冻结原始部分保证输入几何不变，只优化缺失部分

损失函数 / 训练策略¶

GenPC 是一个零样本框架，无需针对特定数据集训练。核心损失包括：ICP 对齐的综合 CD（几何+RGB）、SDS 损失（可选）、保持损失。SDS 精炼步骤可选，不用 SDS 时也能获得有竞争力的结果。

实验关键数据¶

主实验（Redwood 真实扫描数据集）¶

方法	平均 CD↓	平均 EMD↓	类型
GenPC	1.74	2.88	零样本
GenPC (w/o Refining)	1.98	3.16	零样本
SDS-Complete	2.72	4.06	零样本
PoinTr	2.89	5.24	训练式
SnowflakeNet	2.96	5.64	训练式
AdaPoinTr	4.45	6.19	训练式

消融实验¶

配置	CD↓	EMD↓	说明
Full model	1.74	2.88	完整 GenPC
A: w/o 视点选择（距离法）	2.44	3.79	可能选错视点导致深度翻转
B: w/o ControlNet	4.31	6.80	无颜色信息严重影响后续操作
C: w/o 深度补全	2.23	3.60	密集点云还行，稀疏时严重退化
D: w/o 3D 生成模型	4.65	6.13	用高斯噪声替代，证明先验关键
E: w/o 动态尺度适配	4.38	4.52	直接对齐浪费几何先验
F: w/o SDS 优化	1.98	3.16	仍有竞争力，SDS 主要精炼细节

关键发现¶

GenPC 大幅超越所有方法：在 Redwood 上 CD 比 SDS-Complete 降低 36%，EMD 降低 29%，说明显式 3D 先验远优于隐式 2D 先验
训练式方法全面落败：即使是训练过的类别（椅子、沙发），PoinTr/SnowflakeNet/AdaPoinTr 在真实扫描上也不如 GenPC，说明合成-真实域差异巨大
3D 生成模型和动态尺度适配是最关键的两个模块：去掉它们后 CD 分别升到 4.65 和 4.38，影响远大于其他模块
深度补全对稀疏点云至关重要：在密集的 Redwood 上影响中等（2.23 vs 1.74），但在稀疏的 ScanNet 上差距巨大（3.57 vs 1.62）
SDS 精炼是可选的：不用 SDS 时 CD=1.98 已经很强，SDS 主要改善细节质量

亮点与洞察¶

用深度图做模态桥接的巧妙设计：点云→深度图→RGB图→3D形状的模态转换链路简洁有效，将前馈 3D 生成模型的强大能力嫁接到了点云补全任务上
凸包视点选择：将扫描视点估计问题形式化为隐藏点去除问题，通过球面翻转+凸包构建避免了深度翻转，比简单的距离法鲁棒得多
颜色作为语义信号辅助对齐：在 ICP 配准中加入 RGB Chamfer Distance 作为额外监督，利用了不同部位颜色差异提供的语义约束，这一技巧可迁移到其他点云配准场景
分区高斯参数设置：冻结原始部分的高斯参数、只优化缺失部分，是保持输入几何的简洁有效方案

局限与展望¶

依赖文本提示来生成 ControlNet 图像，对于未知类别需要用户提供文本描述
多阶段流程存在误差累积：视点估计错误会导致后续全部失败
Image-to-3D 模型生成的形状可能与输入点云类别一致但细节不同，融合后存在语义合理但几何不精确的问题
SDS 精炼虽然可选但仍需分钟级时间，完全前馈的方案会更高效
对极度稀疏或遮挡严重的输入（面积很小），深度投影和视点选择可能都不可靠

评分¶

新颖性: ⭐⭐⭐⭐ 首次将前馈 3D 生成模型引入零样本点云补全，Depth Prompting 的桥接思路新颖
实验充分度: ⭐⭐⭐⭐⭐ 三个真实数据集（Redwood/ScanNet/KITTI），详细消融覆盖所有模块
写作质量: ⭐⭐⭐⭐ 结构清晰，每个模块的设计动机和替代方案对比充分
价值: ⭐⭐⭐⭐ 为真实世界点云补全提供了实用的零样本解决方案，思路可推广到其他模态桥接任务