跳转至

GenPC: Zero-shot Point Cloud Completion via 3D Generative Priors

会议: CVPR 2025
arXiv: 2502.19896
代码: 无
领域: 3D视觉
关键词: 点云补全, 零样本, 3D生成先验, 深度提示, 几何保持融合

一句话总结

提出 GenPC 零样本点云补全框架,通过 Depth Prompting 模块将部分点云转化为深度图再生成 RGB 图像作为 Image-to-3D 模型的输入,再通过 Geometric Preserving Fusion 模块将生成的 3D 形状与原始点云对齐融合,实现了比 SDS 优化方法更快更好的真实世界扫描补全。

研究背景与动机

领域现状:基于学习的点云补全方法(PoinTr、SnowflakeNet 等)在合成数据集上表现出色,但严重依赖训练数据的分布,对真实世界扫描的泛化能力有限。SDS-Complete 首次尝试使用 2D 扩散先验进行零样本补全,但需要从头优化 SDF/高斯表示,耗时且几何细节粗糙。

现有痛点:(1) 训练式方法在分布外的真实扫描上性能大幅退化,即使是训练过的类别也因域差异导致效果不佳;(2) SDS 优化耗时数分钟到数小时,且 SDS 损失往往只能产生粗糙的几何细节;(3) 现有方法对尺度变化敏感,输入尺度改变时输出不稳定;(4) 2D 扩散先验是隐式的,无法提供精确的 3D 几何信息。

核心矛盾:高质量零样本补全需要强大的 3D 先验,但 2D 扩散模型只能提供隐式的 2D 先验,而前馈 3D 生成模型需要图像输入而非点云。

本文目标 如何利用前馈 3D 生成模型(如 LGM、InstantMesh)的显式 3D 先验来完成零样本点云补全?关键子问题:(1) 如何从点云生成适合 Image-to-3D 模型的图像输入 (2) 如何将生成的 3D 形状与原始点云对齐并保持原始几何。

切入角度:前馈 3D 生成模型已经具备从单张图像秒级生成高质量 3D 物体的能力和强泛化性,作者观察到可以用深度图作为"跳板",将点云转化为图像,从而桥接点云和 Image-to-3D 模型之间的模态鸿沟。

核心 idea:用深度图做跳板将部分点云转化为 Image-to-3D 模型能接受的 RGB 输入,利用前馈 3D 生成模型的显式几何先验实现快速高质量的零样本补全。

方法详解

整体框架

GenPC 的流程分为两个主要模块:(1) Depth Prompting 模块将部分点云转化为深度图,再通过 ControlNet 生成 RGB 图像,送入 Image-to-3D 模型生成完整 3D 形状;(2) Geometric Preserving Fusion 模块通过动态尺度适配将生成形状与原始点云对齐,可选地通过 SDS 优化进一步精炼。输入为部分点云 \(P_{in}\) 和文本提示 \(T_{in}\),输出为完整点云 \(P_{out}\)

关键设计

  1. Depth Prompting 模块:

    • 功能:从部分点云生成适合 Image-to-3D 模型的 RGB 图像输入
    • 核心思路:分三步完成——(a) 视点选择:在点云周围均匀放置 M 个相机,对每个相机进行球面翻转得到镜像点云 \(\hat{P_{in}}\),构建 \(\hat{P_{in}} \cup V_i\) 的凸包,凸包上包含最多可见点的相机即为扫描视点 \(V_{scan}\)。(b) 深度补全:从 \(V_{scan}\) 投影获得稀疏深度图 \(D_{raw}\),用预训练 2D 扩描模型填充缺失区域得到完整深度图 \(D_c\)(先用大像素投影获取全覆盖 mask \(M_{FULL}\),再对 \(M_{FULL}\)\(\neg D_{raw}\) 做异或获取补全 mask)。(c) 图像生成:将 \(D_c\) 和文本提示 \(T_{in}\) 输入 ControlNet 生成对应 RGB 图像 \(I_{gen}\)
    • 设计动机:基于距离的视点估计方法可能选到反向视点导致深度翻转;凸包方法通过几何推理避免了这一问题。深度补全解决了稀疏点云(如 KITTI LiDAR 扫描)投影后深度图过于稀疏的问题
  2. 动态尺度适配(Dynamic Scale Adaptation):

    • 功能:将生成的 3D 形状与原始部分点云在姿态和尺度上对齐
    • 核心思路:先用 \(I_{gen}\) 上色 \(P_{in}\) 得到彩色部分点云 \(P_{partial}\),两者归一化到 [-0.5, 0.5]。在 [0.8, 1.2] 范围内以 0.1 间隔缩放 \(P_{gen}\),对每个尺度执行 ICP 配准,综合评估几何 Chamfer Distance 和 RGB Chamfer Distance:\(\arg\min_{s} (\alpha \cdot CD_{XYZ} + \beta \cdot CD_{RGB})\)。选择最优配准结果,删除 \(P_{gen}\) 中靠近 \(P_{partial}\) 的点避免重叠,得到初步完整点云 \(P_{all}\)
    • 设计动机:生成模型输出的 3D 形状与输入点云在尺度和姿态上通常不一致,直接对齐会浪费丰富的几何先验。利用颜色作为语义信息辅助对齐(不同部位颜色不同),提升融合准确性
  3. SDS 精炼(可选):

    • 功能:进一步消除多阶段流程的累积误差,优化缺失区域的几何
    • 核心思路:将 \(P_{all}\) 初始化为 3D 高斯:部分区域 \(G_{partial}\) 的坐标、颜色、尺度、不透明度全部冻结以保持原始几何;缺失区域 \(G_{miss}\) 的尺度和不透明度固定,颜色低学习率微调,坐标作为主要优化目标。从 \(V_{scan}\) 渲染参考图像 \(I_{optim}\),从随机视点渲染 \(\tilde{I}^i_{optim}\),使用 Zero123 的 SDS 损失优化 \(G_{miss}\)。同时用保持损失 \(L_{Presv} = w_1 \cdot MSE(I_{optim}, I^i_{optim}) + w_2 \cdot MSE(D_{optim}, D^i_{optim})\) 防止优化过程影响部分区域
    • 设计动机:前面步骤的误差会累积(视点估计→深度补全→图像生成→3D生成→对齐),SDS 精炼可以修正这些累积误差。分区域设置高斯参数是关键——冻结原始部分保证输入几何不变,只优化缺失部分

损失函数 / 训练策略

GenPC 是一个零样本框架,无需针对特定数据集训练。核心损失包括:ICP 对齐的综合 CD(几何+RGB)、SDS 损失(可选)、保持损失。SDS 精炼步骤可选,不用 SDS 时也能获得有竞争力的结果。

实验关键数据

主实验(Redwood 真实扫描数据集)

方法 平均 CD↓ 平均 EMD↓ 类型
GenPC 1.74 2.88 零样本
GenPC (w/o Refining) 1.98 3.16 零样本
SDS-Complete 2.72 4.06 零样本
PoinTr 2.89 5.24 训练式
SnowflakeNet 2.96 5.64 训练式
AdaPoinTr 4.45 6.19 训练式

消融实验

配置 CD↓ EMD↓ 说明
Full model 1.74 2.88 完整 GenPC
A: w/o 视点选择(距离法) 2.44 3.79 可能选错视点导致深度翻转
B: w/o ControlNet 4.31 6.80 无颜色信息严重影响后续操作
C: w/o 深度补全 2.23 3.60 密集点云还行,稀疏时严重退化
D: w/o 3D 生成模型 4.65 6.13 用高斯噪声替代,证明先验关键
E: w/o 动态尺度适配 4.38 4.52 直接对齐浪费几何先验
F: w/o SDS 优化 1.98 3.16 仍有竞争力,SDS 主要精炼细节

关键发现

  • GenPC 大幅超越所有方法:在 Redwood 上 CD 比 SDS-Complete 降低 36%,EMD 降低 29%,说明显式 3D 先验远优于隐式 2D 先验
  • 训练式方法全面落败:即使是训练过的类别(椅子、沙发),PoinTr/SnowflakeNet/AdaPoinTr 在真实扫描上也不如 GenPC,说明合成-真实域差异巨大
  • 3D 生成模型和动态尺度适配是最关键的两个模块:去掉它们后 CD 分别升到 4.65 和 4.38,影响远大于其他模块
  • 深度补全对稀疏点云至关重要:在密集的 Redwood 上影响中等(2.23 vs 1.74),但在稀疏的 ScanNet 上差距巨大(3.57 vs 1.62)
  • SDS 精炼是可选的:不用 SDS 时 CD=1.98 已经很强,SDS 主要改善细节质量

亮点与洞察

  • 用深度图做模态桥接的巧妙设计:点云→深度图→RGB图→3D形状的模态转换链路简洁有效,将前馈 3D 生成模型的强大能力嫁接到了点云补全任务上
  • 凸包视点选择:将扫描视点估计问题形式化为隐藏点去除问题,通过球面翻转+凸包构建避免了深度翻转,比简单的距离法鲁棒得多
  • 颜色作为语义信号辅助对齐:在 ICP 配准中加入 RGB Chamfer Distance 作为额外监督,利用了不同部位颜色差异提供的语义约束,这一技巧可迁移到其他点云配准场景
  • 分区高斯参数设置:冻结原始部分的高斯参数、只优化缺失部分,是保持输入几何的简洁有效方案

局限与展望

  • 依赖文本提示来生成 ControlNet 图像,对于未知类别需要用户提供文本描述
  • 多阶段流程存在误差累积:视点估计错误会导致后续全部失败
  • Image-to-3D 模型生成的形状可能与输入点云类别一致但细节不同,融合后存在语义合理但几何不精确的问题
  • SDS 精炼虽然可选但仍需分钟级时间,完全前馈的方案会更高效
  • 对极度稀疏或遮挡严重的输入(面积很小),深度投影和视点选择可能都不可靠

相关工作与启发

  • vs SDS-Complete:SDS-Complete 使用 2D 扩散模型的隐式先验从头优化 SDF,耗时且几何粗糙;GenPC 使用 3D 生成模型的显式先验做前馈推理,CD 降低 36%,速度大幅提升
  • vs PoinTr / SnowflakeNet:训练式方法依赖合成数据,GenPC 零样本性能大幅超越,说明大规模预训练带来的泛化性优势
  • vs Huang et al.:同样是零样本方法但使用 3DGS + Zero123 的 SDS 优化,速度慢且受 SDS 质量限制;GenPC 利用前馈 3D 模型避免了 SDS 的固有问题

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将前馈 3D 生成模型引入零样本点云补全,Depth Prompting 的桥接思路新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个真实数据集(Redwood/ScanNet/KITTI),详细消融覆盖所有模块
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,每个模块的设计动机和替代方案对比充分
  • 价值: ⭐⭐⭐⭐ 为真实世界点云补全提供了实用的零样本解决方案,思路可推广到其他模态桥接任务

相关论文