跳转至

DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding

会议: ECCV 2024
arXiv: 2407.08801
代码: https://github.com/Jinec98/DG-PIC (有)
领域: LLM/NLP
关键词: 点云理解, 域泛化, 上下文学习, 测试时适配, 多任务学习

一句话总结

提出 DG-PIC,首个在统一模型中同时处理多域多任务点云理解的方法,通过双层源域原型估计和双层测试时特征平移机制,在无需模型更新的情况下提升对未见域的泛化能力。

研究背景与动机

  • 点云理解在自动驾驶、机器人、AR 等场景中至关重要
  • 现有方法面临两大挑战:
  • 域泛化能力不足:在合成数据(ModelNet40)上训练的模型难以在真实数据(ScanObjectNN)上工作
  • 单任务局限:现有 DG 方法专为单一任务设计,无法同时处理多个任务
  • Point In-Context (PIC) 展示了多任务学习能力,但:
    • 依赖高质量上下文数据
    • 仅在单一数据集上训练和测试
    • 缺乏跨域泛化能力
  • 本文提出新设置:多域 + 多任务,在统一模型中处理多个数据集和多个任务

方法详解

整体框架

  1. 预训练阶段:使用 PIC 在多个源域上预训练,获取跨域可泛化信息
  2. 测试阶段:冻结模型,通过双层特征平移将目标域数据拉向源域

关键设计

多域 Prompt 配对: - 与 PIC 的单域配对不同,随机从不同源域选择 prompt - P ~ (D_s^i, D_s^j) = Trans([F_θ(I_i) ⊕ F_θ(T_i^k) ⊕ F_θ(I_j) ⊕ F_θ(T_j^k)], Mask) - 强化不同源域间的关联

双层源域原型估计

全局层(形状上下文): - Z_global^i = (1/N) Σ max(F_θ(P_m)) - 对所有样本的全局特征(max pooling)取平均

局部层(几何结构): - Z_local^{i,m} = (1/N) Σ F_θ(P_m) - 对每个 patch 位置的局部特征取平均

距离计算: - 全局距离:E_global^i = ‖F_global - Z_global^i‖ - 局部距离:E_local^{i,m} = ‖F_local^m - Z_local^{i,m}‖

双层测试时特征平移

宏观层(域感知语义系数 α): - α = softmax(E_global) - 基于全局形状相似度调节各源域的影响权重

微观层(patch 感知位置系数 β): - β^i = softmax(E_local^i) - 基于局部几何结构的相似度进一步调节每个 patch 的平移 - 核心直觉:语义相似的点云,相同位置的 patch 应有相似的几何结构

最终平移公式: - F'_local = (1/R) Σ α_i · (1/M) Σ β^{i,m} · F_local^m + (1/R) Σ (1-α_i) · (1/M) Σ (1-β^{i,m}) · Z_local^{i,m}

测试时 Prompt 选择: - E^i = λ · E_global^i + (1-λ) · (1/M) Σ E_local^{i,m}(λ=0.5) - 从最近源域中选特征距离最近的样本作为 prompt

损失函数 / 训练策略

  • Chamfer Distance 作为训练损失
  • AdamW 优化器,LR=0.001,余弦调度,weight decay=0.05
  • 300 epochs,batch size 128
  • 每个点云 1024 点,64 个 patch,每 patch 32 点
  • 掩码比率 0.7

实验关键数据

主实验

多域多任务基准(目标域 ScanObjectNN,源域:其他三个数据集):

方法 方案 重建 CD 去噪 CD 配准 CD
PointNet 任务特定 41.1 41.9 43.5
DGCNN 任务特定 39.0 37.9 39.8
PIC ICL 基线 基线 基线
DG-PIC ICL + DG 最优 最优 最优

DG-PIC 在三个任务上均显著优于所有对比方法。

消融实验

组件 效果
无特征平移 基线 PIC 性能
仅全局平移(无 β) 提升但不充分
仅局部平移(无 α) 有提升
双层平移(α + β) 最优
多域配对 vs 单域配对 多域配对显著更优
λ=0.5 全局-局部平衡的最优值

关键发现

  1. 多域 prompt 配对策略有效增强了模型对源域间关联的学习
  2. 双层特征平移比单独使用全局或局部平移的效果显著更好
  3. 测试时不更新模型参数即可显著提升域外性能——计算开销极低
  4. patch 位置系数 β 的引入利用了点云几何结构的位置先验——同位置 patch 跨域相似

亮点与洞察

  • 首个多域多任务统一模型:将域泛化和上下文学习结合,填补了点云理解的空白
  • 测试时泛化:无需更新模型权重,仅通过特征空间操作提升未见域性能
  • 双层设计哲学:全局(形状语义)+ 局部(几何结构)两个层面互补
  • 新基准贡献:构建了 4 数据集 × 7 类别 × 3 任务的综合基准

局限性 / 可改进方向

  • 仅支持 3 种任务(重建/去噪/配准),可扩展到分类、分割等更多任务
  • 源域原型估计基于全数据平均,可能受异常样本影响
  • softmax 系数 α、β 的平移可能在源域与目标域差异极大时效果有限
  • 7 类物体的基准规模有限,更大规模验证有待开展
  • 未来方向:自适应选择 prompt 数量、引入测试时自适应(如 TTT)、扩展到室外大场景

相关工作与启发

  • PIC 建立了 3D 上下文学习的基础,DG-PIC 在此基础上引入域泛化
  • 测试时域泛化(T3A, TENT 等)的思想从 2D 视觉迁移到 3D 点云
  • Point-BERT 和 Point-MAE 的 MPM 框架是 PIC/DG-PIC 的底层技术基础
  • 双层原型 + 双层平移的设计思路可推广到其他涉及域迁移的结构化数据学习

评分

维度 分数 (1-5)
新颖性 4
技术深度 4
实验充分性 4
写作质量 4
实用价值 3.5
总分 3.9

相关论文