DAP-MAE: Domain-Adaptive Point Cloud Masked Autoencoder for Effective Cross-Domain Learning¶

会议: ICCV 2025
arXiv: 2510.21635
代码: https://github.com/CVI-SZU/DAP-MAE
领域: 3D视觉 / 点云分析 / 自监督学习
关键词: masked autoencoder, cross-domain learning, 点云, 域适应, 自监督学习

一句话总结¶

提出 DAP-MAE，通过异构域适配器（HDA）和域特征生成器（DFG）协同学习多域点云数据，仅需一次预训练即可适配物体分类、表情识别、部件分割和3D检测等多种下游任务。

研究背景与动机¶

点云数据稀缺：相比2D数据，不同领域的点云数据规模极为有限（物体域、人脸域、场景域各有独立数据集），这限制了监督学习方法的性能。

MAE 预训练的域限制： - 现有点云 MAE（如 Point-MAE、3DFaceMAE、PiMAE）需要在与下游任务相同的域上分别预训练 - 这导致预训练的冗余——每个域都要独立训练一次模型 - 未能充分利用不同域的点云数据

简单混合域数据的失败： - 将来自不同域的点云直接混合进行 MAE 预训练，下游任务可能将跨域信息视为噪声干扰 - 实验验证：ReCon-SMC 在 𝕆+𝔽+𝕊 混合预训练后，表情识别从 87.69% 降至 87.23%，物体检测从 42.7% 降至 42.5%

核心问题：如何有效利用多域点云数据进行联合预训练，使模型在各个域的下游任务上都能获益？

方法详解¶

整体框架¶

DAP-MAE 基于 Transformer 的 MAE 架构，引入两个关键组件：

异构域适配器（HDA）：预训练时用适应模式分域处理，微调时用融合模式综合利用多域知识
域特征生成器（DFG）：通过对比学习提取域特征，引导下游任务的特征适配

预训练数据：ShapeNet（物体域 𝕆）、FRGCv2（人脸域 𝔽）、S3DIS（场景域 𝕊），每个点云统一采样 4096 个点。

预训练流程： 1. FPS + KNN 将点云分割为 patch，随机划分可见和遮蔽部分 2. PointNet tokenize + HDA 适应模式处理 3. Transformer encoder 编码可见 token 4. Decoder 重建遮蔽 patch（Chamfer Distance 损失） 5. DFG 提取域特征（对比损失）

关键设计¶

1. 异构域适配器（HDA）¶

HDA 包含三个并行 MLP（对应 𝕆、𝔽、𝕊 三个域），每个 MLP 由两层 FC + BN + ReLU 组成。

适应模式（预训练）： - 根据输入点云所属的域 d，选择对应的 MLP_d 处理 token - 不同域的数据通过不同 MLP 路径，使 encoder 能在共享参数下学习各域特有的几何信息 - 公式：$\mathcal{T}_{vis} = \text{MLP}_d(\mathcal{T}'_{vis})$

融合模式（微调）： - 冻结三个 MLP 的参数，新增两个 MLP 生成融合系数 - 三个 MLP 同时处理输入 token，以下游任务域对应的 MLP 输出为主，其他两个为辅 - 通过学习的系数线性加权融合：$\text{To}^{(1)} = \text{To}_d^{(1)} + \sum_{d' \neq d} \alpha_{d'} \text{To}_{d'}^{(1)}$ - 两次融合分别作用于两层 FC 的输出

2. 域特征生成器（DFG）¶

DFG 使用交叉注意力机制从 encoder 特征中提取域特征和类别特征：

设置 class token $\hat{c}$ 和三个 domain token $\{\hat{o}, \hat{f}, \hat{s}\}$
预训练时：根据输入域选择对应 domain token，与 class token 拼接作为 Q，encoder 特征作为 K/V
通过对比损失训练：同域特征相似度高，异域特征相似度低
$l(d_i, d_j) = 1 - \cos(d_i, d_j)$（同域），$\max(0, \cos(d_i, d_j) - a)$（异域）

微调时，DFG 输出的类特征 c、域特征 d 和点云特征 ℱ 共同输入下游任务头。

损失函数 / 训练策略¶

预训练损失： $$\mathcal{L} = w_1 \mathcal{L}_{rec} + w_2 \mathcal{L}_{con}$$

重建损失 $\mathcal{L}_{rec}$：Chamfer Distance
对比损失 $\mathcal{L}_{con}$：域特征对比学习
最优权重：$w_1 = 100, w_2 = 0.001$（增大重建损失权重，避免对比损失过拟合）

训练配置：batch size 512，AdamW 优化器，lr=0.0005，cosine schedule，300 epochs，NVIDIA V100 GPU。

微调策略： - HDA 的三个 MLP 参数冻结，仅训练融合系数 MLP - 不同下游任务使用不同配置（lr、epoch、点数等），详见实验部分

实验关键数据¶

主实验¶

DAP-MAE 在5个下游任务上评测：物体分类、Few-shot、部件分割、表情识别、3D物体检测。

物体分类（ScanObjectNN）¶

方法	PM	OBJ_BG	OBJ_ONLY	PB_T50_RS
Point-MAE	PC	90.02	88.29	85.18
Point-FEMAE	PC	95.18	93.29	90.22
ReCon-SMC (baseline)	PC	94.15	93.12	89.73
𝕆+𝔽+𝕊 ReCon-SMC	PC	94.32	93.12	89.90
DAP-MAE (Ours)	PC	95.18	93.45	90.25
I2P-MAE	PC+I	94.14	91.57	90.11
ReCon-full	PC+I+T	95.18	93.63	90.63

DAP-MAE 仅用单模态（PC）就超越大多数跨模态方法，比 baseline ReCon-SMC 提升 1.03%（OBJ_BG）。

跨域预训练对比¶

方法	PM	ScanObjectNN	BU3DFE	BOS	AP50	AP25
ReCon-SMC (same-domain)	PC	94.15	89.13	87.69	42.7	63.8
𝕆+𝔽+𝕊 ReCon-SMC	PC	94.32	88.52	87.23	42.5	63.5
DAP-MAE	PC	95.18	89.83	88.45	43.2	64.0

简单混合域数据的 ReCon-SMC 在表情识别和检测上反而下降，而 DAP-MAE 在所有任务上都有提升。

3D 物体检测（ScanNetV2）¶

方法	PM	AP50	AP25
VoteNet	PC	33.5	58.6
3DETR	PC	37.9	62.1
MaskPoint	PC	40.6	63.4
PiMAE	PC+I	39.4	62.6
ACT	PC+I	42.1	63.8
DAP-MAE	PC	43.2	64.0

DAP-MAE 单模态超越所有跨模态方法，比 ACT 高 1.1% AP50。

消融实验¶

组件消融（ScanObjectNN OBJ_BG）¶

CD	HDA	DFG	Accuracy
✗	✗	✗	94.15
✓	✗	✗	94.32
✓	✓	✗	94.66
✓	✗	✓	94.66
✓	✓	✓	95.18

HDA 和 DFG 各自独立贡献 +0.34%，两者协同再额外提升 0.52%。

HDA 融合模式消融¶

Fusion Mode	𝕆+𝔽	𝕆+𝔽+𝕊
Adding（直接相加）	92.59	92.94
FC（FC预测系数）	94.84	93.80
MLP（MLP预测系数）	93.80	95.18

不当的融合方式（如直接相加）导致准确率从 94.66% 暴跌至 92.59%，说明跨域数据若处理不当会成为噪声。

特征组合消融¶

c	d	ℱ	OBJ_BG
✓	✗	✗	93.12
✗	✓	✗	93.80
✗	✗	✓	94.49
✓	✓	✓	95.18

三种特征的组合最优，点云特征 ℱ 单独使用效果最好（94.49%），因重建损失保留了完整点云信息。

关键发现¶

简单混合域数据无益甚至有害：直接在混合域上预训练 ReCon-SMC，表情识别和检测任务性能下降
HDA 冻结参数至关重要：微调时若不冻结 HDA 的 MLP 参数，后期容易过拟合
融合系数动态变化：微调过程中，MLP 学习的融合系数呈先增后减趋势——早期多借助其他域知识，后期逐渐退出
模型效率：相比 baseline ReCon 仅增加 0.2M 参数和 0.1G FLOPs
对比损失权重敏感：$w_1=100, w_2=0.001$ 最优，对比损失过大容易过拟合

亮点与洞察¶

问题定义精准：首次系统性地研究了点云 MAE 的跨域预训练问题，并通过实验清晰地展示了简单混合的局限性
双模式 HDA 设计精巧：预训练时分域处理避免干扰，微调时融合利用多域知识，一套模块完成两阶段的不同需求
DFG 的引导作用：对比学习训练的域特征不仅区分域，还能在微调时引导特征适配
单次预训练多任务：一次预训练即可适配4种不同任务和3个不同域，大幅减少预训练成本
单模态超越跨模态：不需要图像或文本的跨模态蒸馏，纯点云模态即可匹敌甚至超越 ACT、ReCon-full 等跨模态方法

局限与展望¶

域扩展性：当前模型无法在不重新训练的情况下加入新域，需要探索增量学习/持续学习策略
三域固定：HDA 的三个并行 MLP 硬编码为三个域，扩展到 N 个域需要重新设计
域定义粒度：当前将点云粗分为物体/人脸/场景三个域，更细粒度的域定义可能带来更好的效果
预训练数据不均衡：ShapeNet 50k vs FRGCv2 120k vs S3DIS 的数据量差异可能影响效果
缺少户外场景：当前仅涵盖室内场景域，自动驾驶等户外场景的适用性未验证

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统研究点云 MAE 跨域预训练，HDA 双模式设计创新
技术质量: ⭐⭐⭐⭐ — 方法设计有充分动机，消融实验详细
实验充分度: ⭐⭐⭐⭐⭐ — 5个下游任务、多个数据集、详尽消融和可视化分析
实用价值: ⭐⭐⭐⭐ — 一次预训练多任务适配，显著降低训练成本
综合评分: ⭐⭐⭐⭐ (8/10)