DG-PIC: Domain Generalized Point-In-Context Learning for Point Cloud Understanding¶
会议: ECCV 2024
arXiv: 2407.08801
代码: https://github.com/Jinec98/DG-PIC (有)
领域: LLM/NLP
关键词: 点云理解, 域泛化, 上下文学习, 测试时适配, 多任务学习
一句话总结¶
提出 DG-PIC,首个在统一模型中同时处理多域多任务点云理解的方法,通过双层源域原型估计和双层测试时特征平移机制,在无需模型更新的情况下提升对未见域的泛化能力。
研究背景与动机¶
- 点云理解在自动驾驶、机器人、AR 等场景中至关重要
- 现有方法面临两大挑战:
- 域泛化能力不足:在合成数据(ModelNet40)上训练的模型难以在真实数据(ScanObjectNN)上工作
- 单任务局限:现有 DG 方法专为单一任务设计,无法同时处理多个任务
- Point In-Context (PIC) 展示了多任务学习能力,但:
- 依赖高质量上下文数据
- 仅在单一数据集上训练和测试
- 缺乏跨域泛化能力
- 本文提出新设置:多域 + 多任务,在统一模型中处理多个数据集和多个任务
方法详解¶
整体框架¶
- 预训练阶段:使用 PIC 在多个源域上预训练,获取跨域可泛化信息
- 测试阶段:冻结模型,通过双层特征平移将目标域数据拉向源域
关键设计¶
多域 Prompt 配对: - 与 PIC 的单域配对不同,随机从不同源域选择 prompt - P ~ (D_s^i, D_s^j) = Trans([F_θ(I_i) ⊕ F_θ(T_i^k) ⊕ F_θ(I_j) ⊕ F_θ(T_j^k)], Mask) - 强化不同源域间的关联
双层源域原型估计:
全局层(形状上下文): - Z_global^i = (1/N) Σ max(F_θ(P_m)) - 对所有样本的全局特征(max pooling)取平均
局部层(几何结构): - Z_local^{i,m} = (1/N) Σ F_θ(P_m) - 对每个 patch 位置的局部特征取平均
距离计算: - 全局距离:E_global^i = ‖F_global - Z_global^i‖ - 局部距离:E_local^{i,m} = ‖F_local^m - Z_local^{i,m}‖
双层测试时特征平移:
宏观层(域感知语义系数 α): - α = softmax(E_global) - 基于全局形状相似度调节各源域的影响权重
微观层(patch 感知位置系数 β): - β^i = softmax(E_local^i) - 基于局部几何结构的相似度进一步调节每个 patch 的平移 - 核心直觉:语义相似的点云,相同位置的 patch 应有相似的几何结构
最终平移公式: - F'_local = (1/R) Σ α_i · (1/M) Σ β^{i,m} · F_local^m + (1/R) Σ (1-α_i) · (1/M) Σ (1-β^{i,m}) · Z_local^{i,m}
测试时 Prompt 选择: - E^i = λ · E_global^i + (1-λ) · (1/M) Σ E_local^{i,m}(λ=0.5) - 从最近源域中选特征距离最近的样本作为 prompt
损失函数 / 训练策略¶
- Chamfer Distance 作为训练损失
- AdamW 优化器,LR=0.001,余弦调度,weight decay=0.05
- 300 epochs,batch size 128
- 每个点云 1024 点,64 个 patch,每 patch 32 点
- 掩码比率 0.7
实验关键数据¶
主实验¶
多域多任务基准(目标域 ScanObjectNN,源域:其他三个数据集):
| 方法 | 方案 | 重建 CD | 去噪 CD | 配准 CD |
|---|---|---|---|---|
| PointNet | 任务特定 | 41.1 | 41.9 | 43.5 |
| DGCNN | 任务特定 | 39.0 | 37.9 | 39.8 |
| PIC | ICL | 基线 | 基线 | 基线 |
| DG-PIC | ICL + DG | 最优 | 最优 | 最优 |
DG-PIC 在三个任务上均显著优于所有对比方法。
消融实验¶
| 组件 | 效果 |
|---|---|
| 无特征平移 | 基线 PIC 性能 |
| 仅全局平移(无 β) | 提升但不充分 |
| 仅局部平移(无 α) | 有提升 |
| 双层平移(α + β) | 最优 |
| 多域配对 vs 单域配对 | 多域配对显著更优 |
| λ=0.5 | 全局-局部平衡的最优值 |
关键发现¶
- 多域 prompt 配对策略有效增强了模型对源域间关联的学习
- 双层特征平移比单独使用全局或局部平移的效果显著更好
- 测试时不更新模型参数即可显著提升域外性能——计算开销极低
- patch 位置系数 β 的引入利用了点云几何结构的位置先验——同位置 patch 跨域相似
亮点与洞察¶
- 首个多域多任务统一模型:将域泛化和上下文学习结合,填补了点云理解的空白
- 测试时泛化:无需更新模型权重,仅通过特征空间操作提升未见域性能
- 双层设计哲学:全局(形状语义)+ 局部(几何结构)两个层面互补
- 新基准贡献:构建了 4 数据集 × 7 类别 × 3 任务的综合基准
局限性 / 可改进方向¶
- 仅支持 3 种任务(重建/去噪/配准),可扩展到分类、分割等更多任务
- 源域原型估计基于全数据平均,可能受异常样本影响
- softmax 系数 α、β 的平移可能在源域与目标域差异极大时效果有限
- 7 类物体的基准规模有限,更大规模验证有待开展
- 未来方向:自适应选择 prompt 数量、引入测试时自适应(如 TTT)、扩展到室外大场景
相关工作与启发¶
- PIC 建立了 3D 上下文学习的基础,DG-PIC 在此基础上引入域泛化
- 测试时域泛化(T3A, TENT 等)的思想从 2D 视觉迁移到 3D 点云
- Point-BERT 和 Point-MAE 的 MPM 框架是 PIC/DG-PIC 的底层技术基础
- 双层原型 + 双层平移的设计思路可推广到其他涉及域迁移的结构化数据学习
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 新颖性 | 4 |
| 技术深度 | 4 |
| 实验充分性 | 4 |
| 写作质量 | 4 |
| 实用价值 | 3.5 |
| 总分 | 3.9 |
相关论文¶
- [CVPR 2026] Mamba Learns in Context: Structure-Aware Domain Generalization for Multi-Task Point Cloud Understanding
- [ECCV 2024] GPSFormer: A Global Perception and Local Structure Fitting-Based Transformer for Point Cloud Understanding
- [ECCV 2024] Improving Domain Generalization in Self-Supervised Monocular Depth Estimation via Stabilized Adversarial Training
- [ECCV 2024] T-MAE: Temporal Masked Autoencoders for Point Cloud Representation Learning
- [ECCV 2024] SegPoint: Segment Any Point Cloud via Large Language Model