Unified Primitive Proxies for Structured Shape Completion¶
会议: CVPR 2026
arXiv: 2601.00759
代码: https://unico-completion.github.io
领域: 3D视觉
关键词: 形状补全, 基元装配, 3D重建, Transformer, 结构化理解
一句话总结¶
提出 UniCo,通过基元代理(primitive proxies)在共享形状特征上学习统一的基元表示,在单次前向传递中联合预测完整点云和装配就绪的二次曲面基元(含几何、语义和成员关系),在合成/真实点云 benchmark 上 Chamfer 距离降低最高 50%,法线一致性提升最高 7%。
研究背景与动机¶
-
领域现状:3D 形状补全旨在从不完整扫描恢复缺失几何。主流方法(PoinTr、AdaPoinTr、ODGNet 等)优化逐点差异,能恢复局部几何但缺乏结构化理解。基元装配(primitive assembly)将表面建模为参数化基元的紧凑集合,提供结构化、可解释的几何表示,适合后续编辑和拓扑控制任务。
-
现有痛点:当前做法是"先补全再装配"的级联方式(cascade),但存在根本问题:(a) 装配求解器(如 PrimFit、PolyFit)期望结构化输入,而逐点补全的输出是非结构化的;(b) 级联 pipeline 容易传播早期误差——基元数量或参数的错误会影响后续的关联步骤;(c) 像 PaCo 这样的两阶段方法先回归基元参数再强制成员关系,在稀疏证据区域容易过拟合,且仅支持平面基元。
-
核心矛盾:点补全和基元推断由不同的监督信号驱动——前者需要逐点引导,后者依赖离散和关系型线索。如何让两者协调优化而非级联?
-
本文目标 如何在单次前向传递中从不完整点云直接预测装配就绪的结构化基元(包含几何、语义类型和内点成员关系)。
-
切入角度:三个设计原则——(a) 协调路径:点补全和基元推断并行解码共享特征;(b) 统一表示:用可学习查询(primitive proxies)聚合特征上分散的结构信息;(c) 一致优化:在线更新基元目标,配合排列不变匹配。
-
核心 idea:用可学习的基元代理查询共享形状特征,在单个网络中联合预测点补全和装配就绪的基元。
方法详解¶
整体框架¶
输入不完整点云,通过编码器提取共享形状特征 \(\mathcal{T} = \{\mathbf{t}^u\}_{u=1}^U\)(\(U=512\))。两条并行路径:(1) 点路径——基于 AdaPoinTr 从特征解码密集完整点云;(2) 基元路径——\(K=40\) 个可学习基元代理查询共享特征,经 Transformer 解码器上下文化后,由专门的预测头输出基元的语义类型、几何参数和内点成员关系。训练时通过在线目标更新和匈牙利匹配保持优化一致性。推理时用置信度分数选择有效基元子集。
关键设计¶
-
基元代理(Primitive Proxies):
- 功能:将分散在共享特征中的结构信息聚合为统一的基元级表示
- 核心思路:初始化 \(K=40\) 个可学习查询 \(\mathcal{R}^{(0)}\),经 4 层 Transformer 解码器上下文化。每层先执行 cross-attention(查询 → 共享形状特征 \(\mathcal{T}\)),再执行 self-attention(查询间交互):\(\mathcal{R}^{(l)} = \text{self-att}(\text{cross-att}(\mathcal{R}^{(l-1)}, \text{MLP}(\mathcal{T})))\)。最终的上下文化代理由三个预测头共享:语义头——MLP + softmax 预测基元类型(plane/cylinder/sphere/cone/\(\emptyset\));成员关系头——计算代理嵌入与形状特征在共享潜空间的点积相似度 \(m_k^u = \text{sigmoid}(\langle \text{MLP}(\mathbf{r}_k), \text{MLP}(\mathbf{t}^u)\rangle)\),阈值 0.5 确定内点;几何头——MLP 预测齐次二次曲面参数 \(\mathbf{A}_k \in \mathbb{R}^{4 \times 4}\),统一表示所有基元类型。
- 设计动机:与实例分割类似(如 Mask2Former),用查询避免手工设计的聚类步骤。但关键区别是这里输入是不完整的,且需要同时预测几何参数,因此需要与点补全路径共享特征。
-
在线目标更新(Online Target Update):
- 功能:解决训练过程中点预测不断变化导致成员关系监督不稳定的问题
- 核心思路:每次迭代动态更新基元目标。(a) 预测点 \(\hat{\mathbf{y}}_j^u\) 通过最近邻找到 GT 点的基元标签 \(p_{i^*}\);(b) 对每个 patch 做多数投票得到 patch 级基元标签 \(\hat{\mathcal{P}}^u\);(c) 收集属于同一基元的 patches 构成在线目标 \(\mathcal{I}_g\)。这些目标每次迭代重新计算,让分配和网络参数联合优化。
- 设计动机:标准做法是在固定点集上提供成员关系监督,但补全网络的预测点分布在训练过程中不断变化,固定的成员对应关系会导致优化不稳定。消融实验显示,去掉在线目标更新后 CD 从 2.44 灾难性飙升至 12.22(5 倍),证明这是最关键的设计。
-
匹配与联合损失:
- 功能:将无序的预测基元与 GT 基元对齐并计算综合损失
- 核心思路:构建成对代价矩阵,包含三项:语义代价(正确分类)、成员关系代价(CE + Dice 损失)、几何代价(内点的 Chamfer距离 + 参数 L1 距离)。用匈牙利算法求最优二部匹配。总损失 = 匹配基元代价之和 + 全局对象级 Chamfer 距离。未匹配的预测通过语义项降权处理类不平衡。
- 设计动机:基元集合是无序的,需要排列不变匹配,类似 DETR 的 object detection 范式,但扩展到同时处理语义+几何+成员关系的多任务匹配。
推理流程¶
推理时通过置信度评分筛选有效基元:\(s_k = \pi_k[\hat{c}_k] \cdot \frac{1}{|\hat{\mathcal{I}}_k|} \sum_{u \in \hat{\mathcal{I}}_k} m_k^u\),保留 \(s_k > 0.5\) 的基元传给下游装配求解器。
实验关键数据¶
主实验(ABC-multi + PrimFit 装配)¶
| 方法 | 基元提取器 | CD ↓ | HD ↓ | NC ↑ | FR ↓ |
|---|---|---|---|---|---|
| AdaPoinTr | HPNet | 4.41 | 13.36 | 0.872 | 8.97% |
| ODGNet | HPNet | 4.33 | 13.63 | 0.873 | 7.41% |
| ODGNet | RANSAC | 4.80 | 22.15 | 0.868 | 0.39% |
| SymmComplete | HPNet | 4.57 | 13.58 | 0.865 | 9.84% |
| UniCo (Ours) | 内置 | 2.18 | 7.53 | 0.935 | 1.49% |
消融实验(ABC-multi, 200 epochs)¶
| 配置 | CD ↓ | NC ↑ |
|---|---|---|
| Full model (UniCo) | 2.44 | 0.924 |
| no param. head | 2.52 (-0.08) | 0.921 |
| no prim. Chamfer | 2.53 (-0.09) | 0.920 |
| CE-only membership | 2.53 (-0.09) | 0.923 |
| Dice-only membership | 2.66 (-0.22) | 0.914 |
| no online target | 12.22 (-9.78) | 0.631 |
| two-stage training | 2.55 (-0.11) | 0.919 |
真实数据(Building-PCC + PolyFit)¶
| 方法 | CD ↓ | HD ↓ | NC ↑ | FR ↓ |
|---|---|---|---|---|
| AdaPoinTr | 4.87 | 10.61 | 0.934 | 0.85% |
| ODGNet | 3.97 | 9.09 | 0.947 | 0.87% |
| PaCo | 4.89 | 10.74 | 0.932 | 0.54% |
| UniCo (Ours) | 3.84 | 9.18 | 0.949 | 0.39% |
关键发现¶
- 在线目标更新是最关键的设计——去掉后 CD 灾难性恶化 5 倍(2.44 → 12.22),NC 从 0.924 暴跌至 0.631。这说明在补全任务中,动态同步基元监督与不断变化的点预测是必要的
- 逐点指标好不代表重建好:SymmComplete 逐点 CD 最低但装配后 CD 反而最高之一,说明结构化输出比裸点精度更重要
- UniCo 在 4 种不同装配求解器(PrimFit、PolyFit、KSR、COMPOD)上一致优于基线,证明其基元质量的通用性
- 鲁棒性测试:不完整度从 25% 到 75%,UniCo 的 CD 仅从 1.8 升至 2.7,而基线翻倍到 ~6.0
- 有趣观察:基元代理自动发展出一致的代理级语义——特定代理在不同输入中始终代表相同物体部件
亮点与洞察¶
- 将 DETR 风格的查询机制引入 3D 形状补全是一个优雅的迁移:基元代理类似 object queries,但扩展到同时处理补全场景下的几何、语义和成员关系
- 在线目标更新解决了一个根本性问题——当预测持续变化时如何提供稳定的结构化监督,这个思路可以推广到其他预测目标动态变化的学习任务
- 齐次二次曲面参数化统一表示了平面、圆柱、球、锥体等多种基元,简化了网络设计且易于扩展新基元类型
局限与展望¶
- 优先考虑装配就绪的结构而非逐点精度——对于高度非结构化几何,基元抽象的收益有限
- 最终重建质量依赖于下游装配求解器
- \(K=40\) 代理数是预设的,对于更复杂模型可能不够
- 未来方向:利用基元代理的涌现对应关系做部件感知装配;扩展到大规模场景
相关工作与启发¶
- vs PaCo:PaCo 是级联方式(先预测基元参数再关联内点),仅支持平面。UniCo 联合优化两路径且支持混合基元类型,在 ABC-plane 上 CD 从 1.87 降至 1.69,在 Building-PCC 上从 4.89 降至 3.84
- vs AdaPoinTr/ODGNet:这些方法逐点指标好但装配后差,因为它们的输出缺乏基元感知的结构化信息。UniCo 的结构化补全直接产出装配就绪的基元
- vs Point2CAD/BSP-Net:这些重建方法在部分输入上表现差。即使给最好的点补全作为输入(ODGNet),Point2CAD 的 CD 仍比 UniCo 高 55%
评分¶
- 新颖性: ⭐⭐⭐⭐ 基元代理概念新颖,将查询机制引入结构化补全;在线目标更新解决了关键训练难题
- 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集(合成+真实)、四种装配求解器、详细消融和鲁棒性分析
- 写作质量: ⭐⭐⭐⭐⭐ 设计原则清晰,从问题到方案推导逻辑严密
- 价值: ⭐⭐⭐⭐ 为 3D 结构化理解提供了有效 recipe,但应用场景偏专业
相关论文¶
- [CVPR 2026] TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size
- [CVPR 2026] UniLS: End-to-End Audio-Driven Avatars for Unified Listening and Speaking
- [CVPR 2025] Shape My Moves: Text-Driven Shape-Aware Synthesis of Human Motions
- [AAAI 2026] Self-Correction Distillation for Structured Data Question Answering
- [ICLR 2026] UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation