Jigsaw++: Imagining Complete Shape Priors for Object Reassembly¶

会议: ICCV 2025
arXiv: 2410.11816
代码: GitHub
领域: 其他
关键词: 物体重组, 3D形状补全, 点云生成, Rectified Flow, 形状先验

一句话总结¶

Jigsaw++ 提出了一种基于生成模型的完整形状先验学习方法，通过"retargeting"策略将部分组装的碎片点云映射到完整物体的形状空间，与现有组装算法正交地提升重组质量。

研究背景与动机¶

物体重组（Object Reassembly）广泛应用于数字考古、机器人家具组装和骨骼修复等场景，分为零件组装（part assembly）和碎片组装（fracture assembly）两大类。现有方法的核心缺陷在于：缺乏对完整物体的全局理解。当输入仅有部分碎片时，现有方法高度依赖类别特定模板，无法泛化到多样化的物体类型。

具体而言，已有方法存在三方面不足：

逐片处理：只关注单个碎片或其断裂面的信息，忽略了完整物体的全局形状约束

模板依赖：需要预先知道物体类别或已有完整模板，限制了适用范围

缺失碎片问题：真实场景中常有碎片丢失，但现有方法假设输入碎片完整

Jigsaw++ 的核心动机是：学习一个类别无关的完整形状先验，从部分组装结果中"想象"出完整物体，作为额外信息层来提升下游组装算法的表现。

方法详解¶

整体框架¶

Jigsaw++ 采用两阶段设计： 1. 第一阶段（形状先验学习）：训练一个点云生成模型，学习完整物体的形状分布 2. 第二阶段（Retargeting 重建）：从部分组装的输入出发，通过微调的生成模型重建完整形状

关键设计¶

点云-图像双向映射：这是整个框架的基石。将点云坐标 \(\mathbf{o}_i \in [0,1]^3\) 通过映射函数 \(f(\mathbf{o}_i) = \lfloor 255 \mathbf{o}_i \rfloor\) 转换为 RGB 颜色空间，再通过指定相机角度进行光栅化渲染。逆映射 \(f'(\mathbf{c}_i) = \frac{1}{255}\mathbf{c}_i\) 可从彩色图像恢复 3D 坐标。这种设计的巧妙之处在于：（1）利用预训练的 LEAP（image-to-3D）模型，间接获取海量 2D 数据的知识；（2）突破了点云数量的限制，支持任意数量的输入输出点。
基于 Rectified Flow 的联合生成模型：采用 Rectified Flow 作为生成框架，联合生成全局嵌入 \(\mathbf{g}\) 和重建潜变量 \(\mathbf{r}\)。Rectified Flow 通过 ODE 实现两分布间的传输映射：

\[X_t = (1-t)X_0 + tX_1, \quad \frac{d}{dt}X_t = X_1 - X_0\]

其优势是学到近似线性的轨迹，使前向和逆向采样都很高效。模型使用 U-ViT 作为骨干网络，在编码阶段利用 DINOv2 特征提取器提供跨类别的泛化能力。

Retargeting 策略：这是 Jigsaw++ 最核心的贡献。给定部分组装物体 \(\hat{O}\) 及其潜变量 \(\hat{\mathbf{x}}_1\)，首先通过逆 ODE 求解得到 \(\hat{\mathbf{x}}_0\)。由于输入不是完整物体，\(\hat{\mathbf{x}}_0\) 在 \(\pi_0 = \mathcal{N}(0,I)\) 下的似然很低。因此应用 Langevin 动力学进行调整：

\[\mathbf{x}_0 = \alpha \hat{\mathbf{x}}_0 + \sqrt{1-\alpha^2}\xi, \quad \xi \sim \mathcal{N}(0,I)\]

然后用 \((\mathbf{x}_0, \mathbf{x}_1)\) 对进行微调，使模型学会从不完整输入到完整形状的映射。Rectified Flow 的线性轨迹特性将逆采样步数压缩到正常的 \(1/25\)，大幅降低微调成本。

损失函数 / 训练策略¶

生成阶段：标准 Rectified Flow 训练目标 \(\mathbb{E}\|\frac{d}{dt}X_t - v(X_t, t)\|\)
Retargeting 阶段：微调目标 \(\mathbb{E}_{\mathbf{x}_0,\mathbf{x}_1}\|(\mathbf{x}_0 - \mathbf{x}_1) - v(\mathbf{x}_t, t)\|^2\)
使用 Breaking Bad 训练集的 407 个物体（34075 个碎片模式）训练，不提供类别信息

实验关键数据¶

主实验¶

Breaking Bad 数据集（碎片组装）：

方法	CD (×10⁻³) ↓	Precision (%) ↑	Recall (%) ↑
SE(3)	22.4	20.2	22.5
SE(3) + Jigsaw++	14.3	37.8	36.6
Jigsaw	10.5	45.6	42.7
Jigsaw + Jigsaw++	4.5	48.7	49.5

PartNet 数据集（零件组装，DGL 基线）：

类别	CD ↓	Precision ↑	Recall ↑
Chair (DGL)	47.8	21.5	20.0
Chair + Jigsaw++	41.0	52.0	33.6
Table (DGL)	53.6	16.6	15.4
Table + Jigsaw++	42.6	53.6	31.0

消融实验¶

配置	说明
逆采样比 k=1/10	最优设置，完整逆采样会过度模仿输入
k=1/25	性能仍可接受，验证了 Rectified Flow 的步数压缩能力
α=1	输出几乎复制输入
α 逐渐减小	输出逐步偏向完整物体，但具体形状可能偏离
20% 碎片缺失	CD 仅从 1.8 升至 2.0，precision/recall 几乎不变

关键发现¶

Jigsaw++ 与现有组装算法正交，即使基线算法较弱（如 SE(3)），加入形状先验也能大幅提升
使用 GT 形状先验做碎片匹配可将 Jigsaw 的误差降低 50%，即使加入 20% 噪声仍显著优于原始方法
Breaking Bad 上改进更大（物体较小适合颜色映射），PartNet 上 precision 提升 30+ 个百分点

亮点与洞察¶

正交性设计：不是替换现有方法而是作为补充层，任何组装算法都可以受益
2D-3D 桥接：巧妙利用坐标-颜色映射+LEAP 避免了 3D 数据稀缺问题
Rectified Flow 的工程优势：线性轨迹使得 retargeting 微调成本极低，逆采样只需 1/25 步数

局限与展望¶

尺寸限制：颜色映射对大尺寸物体（如路灯）失效，图像分辨率不足以表达
未见类别泛化：模型对训练集中未见的物体类型重建能力有限
拓扑约束：对复杂几何（如杯子把手）的拓扑关系难以准确重构
下游利用：目前尚无现成的组装算法能充分利用生成的形状先验

评分¶

新颖性: ⭐⭐⭐⭐ retargeting + 颜色映射方案原创性强
实验充分度: ⭐⭐⭐⭐ 两个数据集 + 多项消融实验 + 缺失碎片鲁棒性测试
写作质量: ⭐⭐⭐⭐ 问题定义清晰，但数学符号较多
价值: ⭐⭐⭐⭐ 为物体重组提供了全新范式方向