DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding¶

会议: ECCV 2024
arXiv: 2407.08801
代码: https://github.com/Jinec98/DG-PIC (有)
领域: 3D视觉
关键词: 点云理解, 领域泛化, 上下文学习, 多任务学习, 测试时自适应

一句话总结¶

提出 DG-PIC，首个在统一模型中同时处理多领域多任务的点云理解框架，通过双层次源域原型估计和测试时特征平移机制，在不更新模型的情况下提升对未知域的泛化能力。

研究背景与动机¶

领域现状：点云理解在自动驾驶、机器人等领域应用广泛，但模型通常在单一数据集上训练和测试。当面对分布不同的新数据时（如从合成数据 ModelNet40 到真实扫描 ScanObjectNN），性能会显著下降。

现有痛点： - 领域泛化 (DG) 方法通常只针对单一任务设计（如分类），缺乏多任务处理能力，且忽略了测试数据本身的利用价值 - 上下文学习 (ICL) 方法（如 PIC）可以做多任务，但局限于单一数据集，跨域泛化能力差 - 两类方法都无法同时解决"多域"和"多任务"问题

核心矛盾：统一模型需要兼顾任务泛化（多任务）和域泛化（多域），而现有方法只能二选一。

本文目标 在一个统一模型中处理多个领域和多个任务的点云理解，并在测试时不更新模型参数即可泛化到未知域。

切入角度：将 PIC 的多任务 ICL 与测试时领域泛化结合——预训练阶段用 PIC 学习跨域泛化信息，测试时通过特征平移将目标域拉向源域。

核心 idea：双层次源域原型 + 双层次测试时特征平移，无需模型更新即可将未知域测试数据对齐到已知源域。

方法详解¶

整体框架¶

DG-PIC 分为两个阶段：(1) 预训练阶段——基于 Masked Point Modeling (MPM) 框架，在多个源域上训练 PIC 模型，使用跨域 prompt 配对策略；(2) 测试阶段——冻结模型，通过双层次源域原型估计确定测试样本与各源域的距离，再通过双层次特征平移将测试数据对齐到源域，选择最近源域中最相似的样本作为 prompt。

关键设计¶

多域 Prompt 配对 (Multi-domain Prompt Pairing):
- 功能：在预训练时从不同源域随机选取样本作为 prompt，增强跨域关联。
- 核心思路：设 query 来自域 \(D_s^i\)，prompt 来自域 \(D_s^j (j \neq i)\)，预测的 masked patch 为： \(P \sim (D_s^i, D_s^j) = Trans([F_\theta(I_i) \oplus F_\theta(T_i^k) \oplus F_\theta(I_j) \oplus F_\theta(T_j^k)], Mask)\) 训练损失使用 Chamfer Distance：\(\text{CD}(P,G) = \frac{1}{|P|}\sum_{x \in P}\min_{y \in G}\|x-y\|^2 + \frac{1}{|G|}\sum_{y \in G}\min_{x \in P}\|y-x\|^2\)
- 设计动机：跨域配对迫使模型学习域不变的特征表示。
双层次源域原型估计 (Dual-level Source Prototype Estimation):
- 功能：为每个源域计算全局和局部两个层次的原型，作为测试时特征对齐的锚点。
- 核心思路：
  - 局部原型 \(Z_{local}^{i,m}\)：对域 \(D_s^i\) 中所有样本的 patch 级特征取平均：\(Z_{local}^{i,m} = \frac{1}{N_{D_s^i}} \sum_{n=1}^{N_{D_s^i}} F_\theta(P_m)\)
  - 全局原型 \(Z_{global}^i\)：对所有 patch 特征做 max pooling 后取平均：\(Z_{global}^i = \frac{1}{N_{D_s^i}} \sum_{n=1}^{N_{D_s^i}} max(F_\theta(P_m))\)
  - 计算测试样本到每个源域原型的欧氏距离：\(\mathcal{E}_{global}^i = \|F_{global} - Z_{global}^i\|\)，\(\mathcal{E}_{local}^{i,m} = \|F_{local}^m - Z_{local}^{i,m}\|\)
- 设计动机：全局特征捕获形状上下文，局部特征捕获几何结构细节，双层次才能全面表示源域。
双层次测试时特征平移 (Dual-level Test-time Feature Shifting):
- 功能：在测试时将目标域特征向源域方向平移，无需更新模型参数。
- 核心思路：
  - 宏观语义系数 \(\alpha\)：从全局距离导出，控制各源域对特征平移的贡献度：\(\alpha = softmax(\mathcal{E}_{global})\)
  - 微观位置系数 \(\beta^i\)：从局部距离导出，考虑 patch 位置对齐关系：\(\beta^i = softmax(\mathcal{E}_{local}^i)\)
  - 最终特征平移公式： \(F'_{local} = \frac{1}{R}\sum_{i=1}^{R}\alpha_i\left(\frac{1}{M}\sum_{m=1}^{M}\beta^{i,m}F_{local}^m\right) + \frac{1}{R}\sum_{i=1}^{R}(1-\alpha_i)\left(\frac{1}{M}\sum_{m=1}^{M}(1-\beta^{i,m})Z_{local}^{i,m}\right)\)
- 设计动机：\(\alpha\) 利用跨域语义相似性调节整体平移强度，\(\beta\) 利用同位置 patch 的几何相似性进行精细对齐。同位置的 patch 即使跨域也应具有相似的几何结构（如桌子外围是边缘、内部是平面）。
测试时 Prompt 选择:
- 功能：从最近源域中选择最相似样本作为 prompt。
- 核心思路：综合全局和局部距离确定最近源域：\(\mathcal{E}^i = \lambda \cdot \mathcal{E}_{global}^i + (1-\lambda) \cdot \frac{1}{M}\sum_{m=1}^{M}\mathcal{E}_{local}^{i,m}\)（\(\lambda=0.5\)），在该域中找特征距离最小的样本作为 prompt。

损失函数 / 训练策略¶

预训练使用 Chamfer Distance 损失
AdamW 优化器，lr=0.001，cosine 学习率调度
训练 300 epochs，batch size 128
每个点云采样 1024 点，分为 64 个 patch（每个 32 点），mask ratio 0.7
测试时完全不更新模型参数

实验关键数据¶

主实验（ScanObjectNN 作为目标域，CD×10⁻³ ↓）¶

方法	设定	重建	去噪	配准
DG-PIC (Ours)	测试时 DG	4.1	15.2	5.8
PIC	监督学习	72.9	80.0	12.7
Point-MAE (task-specific)	监督学习	30.4	36.0	31.2
PCT (multi-task)	监督学习	31.5	36.5	34.9
PointCutMix (task-specific)	训练时 DG	44.8	43.5	41.3

消融实验（CD×10⁻³ ↓）¶

模型	原型估计	特征平移	锚定域	重建	去噪	配准
Model A	随机	平均	单域	8.4	40.5	6.7
Model B	仅全局	平均	单域	7.2	38.3	6.4
Model C	仅局部	平均	单域	7.3	36.7	6.7
Model D	全局+局部	平均	单域	6.8	35.1	6.2
Model E	全局+局部	平均	全域	6.3	32.4	6.5
Model F	全局+局部	仅宏观	全域	5.2	22.7	6.0
Model G	全局+局部	仅微观	全域	4.9	25.6	6.2
Ours	全局+局部	宏观+微观	全域	4.1	15.2	5.8

关键发现¶

DG-PIC 在所有三个任务上大幅超越所有对比方法，重建任务上 CD 仅为 PIC 的 5.6%（4.1 vs 72.9）
传统方法（PointNet, DGCNN 等）跨域泛化能力差，CD 值普遍在 30-45 范围
DG 方法（Pointmixup, PointCutMix）虽引入域泛化，但各任务结果方差小，说明它们只关注域间差异而忽视任务差异
PIC 能做多任务但跨域失败（CD 72.9-80.0），证明 ICL 不足以解决域差距
双层次设计（全局+局部原型、宏观+微观平移）的每个组件都有独立贡献，去噪任务受益最大

亮点与洞察¶

开创性设定：首次提出多域多任务点云理解的设定，并构建了包含 4 个数据集（2 合成 + 2 真实）、7 类物体、3 个任务、30,954 样本的基准测试
测试时泛化无需模型更新：通过特征空间平移而非微调实现域适应，计算开销可控
微观位置系数的设计直觉精妙：同一物体同位置的 patch 跨域应有相似几何结构，这一先验被有效利用
统一模型做三个任务：重建、去噪、配准共享一个网络，通过 prompt 切换任务

局限与展望¶

benchmark 仅包含 7 个共有类别，规模和多样性有限
仅考虑了 xyz 坐标回归型任务（重建/去噪/配准），未涵盖分类、分割等判别型任务
源域原型为所有样本的简单平均，可能丢失类内多模态分布信息
特征平移公式较为启发式，缺乏理论分析
仅在 ScanObjectNN 作为目标域上做了充分实验，其他目标域配置的消融不足

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出多域多任务点云理解设定，双层次设计有创意
实验充分度: ⭐⭐⭐⭐ 消融实验充分，多种 baseline 对比，但目标域过于单一
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述合理，图示直观
价值: ⭐⭐⭐⭐ 新设定和基准测试对推动点云泛化研究有较好贡献