DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction¶

会议: CVPR 2025
arXiv: 2412.04464
代码: https://dualpm.github.io
领域: 3D视觉 / 可变形物体重建
关键词: 双点图, 可变形物体重建, 规范空间, 姿态估计, 四足动物

一句话总结¶

提出 Dual Point Maps（DualPM），通过同时预测相机空间和规范空间的点图对，将可变形物体的 3D 形状和姿态重建简化为点图预测问题，仅用合成数据训练即可泛化到真实图像。

领域现状：DUSt3R 证明了点图表示在静态场景重建中的强大能力，将匹配、相机估计、三角化等问题统一为点图预测。

现有痛点：单一点图只能重建可见的 3D 形状，无法恢复物体的姿态（变形场）；现有可变形物体方法依赖大规模弱监督数据或复杂优化。

核心矛盾：恢复姿态需要知道"从静态姿态到当前姿态的变形"，但单一点图不包含变形信息。

本文目标：设计一种网络友好的表示，使得形状和姿态重建都能通过简单的点图预测实现。

切入角度：如果同时预测两个点图——一个在相机空间（当前姿态），一个在规范空间（静息姿态），变形场就是两者的差。

核心 idea：DualPM = 相机空间点图 P + 规范空间点图 Q，姿态/变形场 = P - Q。

给定图像 I，先用预训练特征提取器（如 DINOv2）提取特征 F，预测规范点图 Q = Φ_Q(F)，再以 Q 为条件预测相机空间点图 P = Φ_P(Q)。扩展为 amodal 版本可通过分层表示重建完整形状。

双点图表示（Dual Point Maps）:
- 功能：统一编码 3D 形状和姿态信息
- 核心思路：对每个像素 u，P(u) 给出其在相机坐标系中的 3D 位置，Q(u) 给出同一点在规范空间中的位置。跨图像匹配可通过比较 Q 值实现（因为 Q 是姿态/视角不变的），变形场直接是 P - Q
- 设计动机：Q 的预测类似像素标注问题（姿态不变），大大降低了网络学习难度
规范点图作为中间表示:
- 功能：Q 作为 P 的条件输入，替代原始图像特征
- 核心思路：先预测 Q（基于 DINOv2 特征，姿态不变更易学），再以 Q 为条件预测 P。这样 P 的网络不需要直接从高变化的图像特征学习，而是从已经解耦了姿态的 Q 出发
- 设计动机：实验表明用 Q 作为 P 的条件比用 DINOv2 特征直接预测 P 有更好的分布外泛化能力
Amodal 分层点图:
- 功能：重建完整 3D 形状，包括自遮挡部分
- 核心思路：每个像素映射到 2K 个 3D 点（K 对入射/出射点），类似深度剥离。第一层是可见点，后续层捕捉被遮挡的点。额外预测每层的不透明度 σ 表示该层是否存在交叉点
- 设计动机：标准点图只能重建可见部分，amodal 扩展通过分层预测恢复完整形状

使用自校准 L2 损失训练 P 和 Q 的预测网络，额外有不透明度的交叉熵损失。训练数据仅需每类 1-2 个合成 3D 模型，利用 Farm3D 等生成合成渲染。模型在合成数据上训练，直接泛化到真实图像。

在四足动物（马、牛、狗等）上显著超越 3D-Fauna、MagicPony 等方法： - 跨姿态对应：PCK@0.1 显著领先 - 3D 重建：Chamfer 距离大幅降低 - 仅用合成数据训练即可泛化到真实图像