DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding¶

会议: ECCV 2024
arXiv: 2407.08801
代码: https://github.com/Jinec98/DG-PIC (有)
领域: LLM/NLP
关键词: 点云理解, 域泛化, 上下文学习, 测试时适配, 多任务学习

一句话总结¶

提出 DG-PIC，首个在统一模型中同时处理多域多任务点云理解的方法，通过双层源域原型估计和双层测试时特征平移机制，在无需模型更新的情况下提升对未见域的泛化能力。

研究背景与动机¶

点云理解在自动驾驶、机器人、AR 等场景中至关重要
现有方法面临两大挑战：
域泛化能力不足：在合成数据（ModelNet40）上训练的模型难以在真实数据（ScanObjectNN）上工作
单任务局限：现有 DG 方法专为单一任务设计，无法同时处理多个任务
Point In-Context (PIC) 展示了多任务学习能力，但：
- 依赖高质量上下文数据
- 仅在单一数据集上训练和测试
- 缺乏跨域泛化能力
本文提出新设置：多域 + 多任务，在统一模型中处理多个数据集和多个任务

方法详解¶

整体框架¶

预训练阶段：使用 PIC 在多个源域上预训练，获取跨域可泛化信息
测试阶段：冻结模型，通过双层特征平移将目标域数据拉向源域

关键设计¶

多域 Prompt 配对： - 与 PIC 的单域配对不同，随机从不同源域选择 prompt - P ~ (D_s^i, D_s^j) = Trans([F_θ(I_i) ⊕ F_θ(T_i^k) ⊕ F_θ(I_j) ⊕ F_θ(T_j^k)], Mask) - 强化不同源域间的关联

双层源域原型估计：

全局层（形状上下文）： - Z_global^i = (1/N) Σ max(F_θ(P_m)) - 对所有样本的全局特征（max pooling）取平均

局部层（几何结构）： - Z_local^{i,m} = (1/N) Σ F_θ(P_m) - 对每个 patch 位置的局部特征取平均

距离计算： - 全局距离：E_global^i = ‖F_global - Z_global^i‖ - 局部距离：E_local^{i,m} = ‖F_local^m - Z_local^{i,m}‖

双层测试时特征平移：

宏观层（域感知语义系数 α）： - α = softmax(E_global) - 基于全局形状相似度调节各源域的影响权重

微观层（patch 感知位置系数 β）： - β^i = softmax(E_local^i) - 基于局部几何结构的相似度进一步调节每个 patch 的平移 - 核心直觉：语义相似的点云，相同位置的 patch 应有相似的几何结构

最终平移公式： - F'_local = (1/R) Σ α_i · (1/M) Σ β^{i,m} · F_local^m + (1/R) Σ (1-α_i) · (1/M) Σ (1-β^{i,m}) · Z_local^{i,m}

测试时 Prompt 选择： - E^i = λ · E_global^i + (1-λ) · (1/M) Σ E_local^{i,m}（λ=0.5） - 从最近源域中选特征距离最近的样本作为 prompt

损失函数 / 训练策略¶

Chamfer Distance 作为训练损失
AdamW 优化器，LR=0.001，余弦调度，weight decay=0.05
300 epochs，batch size 128
每个点云 1024 点，64 个 patch，每 patch 32 点
掩码比率 0.7

实验关键数据¶

主实验¶

多域多任务基准（目标域 ScanObjectNN，源域：其他三个数据集）：

方法	方案	重建 CD	去噪 CD	配准 CD
PointNet	任务特定	41.1	41.9	43.5
DGCNN	任务特定	39.0	37.9	39.8
PIC	ICL	基线	基线	基线
DG-PIC	ICL + DG	最优	最优	最优

DG-PIC 在三个任务上均显著优于所有对比方法。

消融实验¶

组件	效果
无特征平移	基线 PIC 性能
仅全局平移（无 β）	提升但不充分
仅局部平移（无 α）	有提升
双层平移（α + β）	最优
多域配对 vs 单域配对	多域配对显著更优
λ=0.5	全局-局部平衡的最优值

关键发现¶

多域 prompt 配对策略有效增强了模型对源域间关联的学习
双层特征平移比单独使用全局或局部平移的效果显著更好
测试时不更新模型参数即可显著提升域外性能——计算开销极低
patch 位置系数 β 的引入利用了点云几何结构的位置先验——同位置 patch 跨域相似

亮点与洞察¶

首个多域多任务统一模型：将域泛化和上下文学习结合，填补了点云理解的空白
测试时泛化：无需更新模型权重，仅通过特征空间操作提升未见域性能
双层设计哲学：全局（形状语义）+ 局部（几何结构）两个层面互补
新基准贡献：构建了 4 数据集 × 7 类别 × 3 任务的综合基准

局限性 / 可改进方向¶

仅支持 3 种任务（重建/去噪/配准），可扩展到分类、分割等更多任务
源域原型估计基于全数据平均，可能受异常样本影响
softmax 系数 α、β 的平移可能在源域与目标域差异极大时效果有限
7 类物体的基准规模有限，更大规模验证有待开展
未来方向：自适应选择 prompt 数量、引入测试时自适应（如 TTT）、扩展到室外大场景

评分¶

维度	分数 (1-5)
新颖性	4
技术深度	4
实验充分性	4
写作质量	4
实用价值	3.5
总分	3.9