GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency¶
会议: CVPR 2025
arXiv: 2412.09511
代码: https://github.com/DylanOrange/geal (有)
领域: 3D视觉
关键词: 3D功能可供性, 跨模态对齐, 高斯溅射, 鲁棒性基准, 2D-3D知识迁移
一句话总结¶
GEAL 提出双分支架构,用 3D 高斯溅射将点云渲染为逼真 2D 图像从而利用预训练 2D 基础模型的泛化能力,通过粒度自适应融合和 2D-3D 一致性对齐实现跨模态知识迁移,在标准和腐败数据基准上全面超越现有 3D 功能可供性方法。
研究背景与动机¶
领域现状:3D 功能可供性学习(Affordance Learning)是指给定语义提示(文字/图像),识别 3D 物体上可以交互的区域(如杯子的把手可以"抓")。这对机器人操作和人机交互至关重要。当前方法通常用 PointNet++ 等 3D 骨干网络直接从点云学习功能可供性。
现有痛点:(1) 泛化差——标注数据少(PIAD 仅 7012 个点云),3D 骨干网络缺乏大规模预训练的支持,在未见物体类别上性能大幅下降;(2) 鲁棒性差——3D 骨干专注于几何编码,对现实中常见的噪声/腐败(传感器误差、场景复杂度带来的数据损坏)缺乏抗干扰能力。
核心矛盾:2D 领域有 DINO、CLIP 等大规模预训练模型提供强大的语义理解和泛化能力,但 3D 领域缺乏同等规模的预训练。如何将 2D 模型的知识迁移到 3D 任务是关键挑战。直接将 3D 点云投影到 2D 会得到稀疏的点,丢失语义和深度信息,无法有效利用 2D 骨干。
本文目标 (1) 建立有效的 3D→2D 映射以利用 2D 基础模型;(2) 设计跨模态对齐机制实现 2D→3D 知识回传;(3) 系统评估 3D 功能可供性的鲁棒性。
切入角度:用 3D 高斯溅射(3DGS)将稀疏点云渲染为逼真图像——保留语义和深度信息的同时,生成适合 DINO 等 2D 骨干处理的密集图像输入。
核心 idea:用 3DGS 桥接 3D 点云和 2D 图像,让 DINO 的视觉先验通过一致性对齐流入 3D 分支,从而增强泛化和鲁棒性。
方法详解¶
整体框架¶
GEAL 采用双分支架构:3D 分支用 PointNet++ 处理点云,2D 分支用 DINOv2 处理通过 3DGS 渲染的深度图像。两个分支各有独立的文本编码器(RoBERTa)。通过粒度自适应融合对齐视觉-文本特征,通过 2D-3D 一致性对齐传播跨模态知识。最终由共享的 transformer 解码器预测功能可供性分数。训练分两阶段:先训练 2D 分支,再冻结 2D 分支训练 3D 分支。推断时仅用 3D 分支。
关键设计¶
-
3DGS 驱动的 3D-2D 映射:
- 功能:从稀疏点云生成逼真的 2D 多视角图像,为 2D 分支提供高质量输入
- 核心思路:将高斯中心设置为点云坐标 \(\boldsymbol{\mu} = \mathbf{P}\),手动固定协方差 \(\Sigma\) 和不透明度 \(\alpha\)(训练期间不更新,保留原始几何)。用 V 个预设相机位姿渲染深度图,再应用预定义的彩色映射表生成伪色彩图像 \(\mathbf{I} \in \mathbb{R}^{V \times 3 \times H \times W}\)。同时将功能可供性分数作为灰度颜色 \(\mathbf{c} = \mathbf{y}\) 渲染出 2D 功能可供性 mask \(\mathbf{y}_{2D}\),建立精确的 3D→2D 对应关系
- 设计动机:3DGS 的 \(\alpha\)-blending 比直接投影提供了更平滑的过渡、更完整的遮挡处理和更准确的深度感知,使渲染图像更适合 DINOv2 的特征提取
-
粒度自适应融合模块(Granularity-Adaptive Fusion Module, GAFM):
- 功能:在多个特征尺度上自适应融合视觉和文本特征
- 核心思路:包含两个子机制。(a) 灵活粒度特征聚合:拼接最后 m 层的多尺度特征,通过一个门控函数加带噪声的 softmax 计算每层的自适应权重 \(\mathbf{W} = \text{Softmax}(\mathbf{f}_{con} \cdot \mathbf{W}_g + \sigma \cdot \epsilon)\),然后加权求和得到聚合特征。噪声引入增强了训练的探索性。(b) 文本条件视觉对齐:用 transformer 块做文本→视觉的交叉注意力,将文本特征增强后再反向查询视觉特征,使视觉表示嵌入问题相关的信息
- 设计动机:功能可供性可能跨越多个物体部件("坐"涉及椅面和靠背),需要多粒度特征。3D 分支(PointNet++)各层空间分辨率和特征维度不同,不能简单拼接,需要先做文本对齐再聚合
-
2D-3D 一致性对齐模块(Consistency Alignment Module, CAM):
- 功能:将 2D 分支的丰富语义知识迁移到 3D 分支
- 核心思路:将 3D 增强特征用 Conv1D 降维,然后利用 3DGS 的渲染管线将每个点的特征向量作为高斯属性渲染到 2D,得到投影特征 \(\mathbf{F}(v) = \sum_{i} \mathbf{f}_i \alpha_i \prod_{j<i}(1-\alpha_j)\)。同时将 2D 增强特征用 Conv2D 上采样到相同分辨率。用 MSE 损失 \(\mathcal{L}_{consis} = \text{MSE}(\mathbf{f}_{cam}^{3D-2D}, \mathbf{f}_{cam}^{2D})\) 强制 3D 投影特征与 2D 特征在共享空间中对齐
- 设计动机:2D 分支用冻结的 DINOv2 提取特征,包含丰富的语义先验。通过特征级对齐而非输出级蒸馏,可以更细粒度地传递知识。3DGS 的可微渲染使得梯度可以从 2D 对齐损失回传到 3D 分支
损失函数 / 训练策略¶
2D 分支损失:\(\mathcal{L}^{2D} = \mathcal{L}_{BCE}^{2D} + \mathcal{L}_{Dice}^{2D}\)。3D 分支损失:\(\mathcal{L}^{3D} = \mathcal{L}_{BCE}^{3D} + \mathcal{L}_{Dice}^{3D} + \mathcal{L}_{consis}\)。两阶段训练:(1) 训练 2D 分支 50 epochs;(2) 冻结 2D 分支(除 CAM 外),训练 3D 分支 50 epochs。Adam 优化器,lr=1e-4,步进学习率调度。DINOv2 冻结,RoBERTa 微调。推断仅用 3D 分支,无需渲染。
实验关键数据¶
主实验¶
PIAD 数据集(7012 点云,23 类物体,17 种功能可供性):
| 方法 | 划分 | aIoU↑ | AUC↑ | SIM↑ | MAE↓ |
|---|---|---|---|---|---|
| IAGNet | Seen | 20.5 | 84.9 | 0.545 | 0.098 |
| LASO | Seen | 19.7 | 84.2 | 0.590 | 0.096 |
| GEAL | Seen | 22.5 | 85.0 | 0.600 | 0.092 |
| IAGNet | Unseen | 8.0 | 71.8 | 0.352 | 0.127 |
| LASO | Unseen | 8.0 | 69.2 | 0.386 | 0.118 |
| GEAL | Unseen | 8.7 | 72.5 | 0.390 | 0.102 |
LASO 数据集(19751 对,8434 物体):
| 方法 | 划分 | aIoU↑ | AUC↑ | SIM↑ | MAE↓ |
|---|---|---|---|---|---|
| LASO | Seen | 20.8 | 87.3 | 0.629 | 0.093 |
| GEAL | Seen | 22.0 | 86.7 | 0.634 | 0.092 |
| LASO | Unseen | 14.6 | 80.2 | 0.507 | 0.119 |
| GEAL | Unseen | 16.7 | 80.9 | 0.567 | 0.106 |
消融实验¶
(基于论文描述的模块贡献分析)
| 组件 | 作用 |
|---|---|
| 3DGS 映射 | 将稀疏点云转化为 DINOv2 可处理的密集输入 |
| GAFM | 多粒度特征聚合 + 文本条件对齐 |
| CAM | 2D→3D 知识迁移的核心桥梁 |
| 两阶段训练 | 先固化 2D 知识,再传递到 3D |
关键发现¶
- 在 Unseen 物体上的提升最显著:PIAD Unseen 的 MAE 从 0.118 降到 0.102(13.6%↓),表明 2D 先验确实增强了泛化
- LASO Unseen 上 aIoU 提升 14.4%(14.6→16.7),SIM 提升 11.8%(0.507→0.567),跨类别泛化效果突出
- 作者还创建了 PIAD-C 和 LASO-C 两个腐败数据基准(7 种腐败类型 × 5 个严重度),首次系统评估了 3D 功能可供性方法的鲁棒性
- DINOv2 作为冻结的 2D 骨干提供了稳定的特征锚点,使 3D 分支的训练更加稳定
- 推断时只需 3D 分支,不增加计算成本——2D 分支仅在训练阶段使用
亮点与洞察¶
- 3DGS 作为跨模态桥梁的新用途:不是用 3DGS 做渲染或重建,而是将其作为 3D→2D 的可微映射工具,巧妙绕开了"点云直接投影太稀疏"的问题。这个思路可推广到任何需要将 3D 特征转化为 2D 表示的场景
- 推断时零额外成本:虽然训练了一个完整的 2D 分支,但推断时完全丢弃,只用 3D 分支。这种"训练时蒸馏、推断时独立"的设计在效率和效果之间取得了好的平衡
- 腐败数据基准的贡献价值:PIAD-C 和 LASO-C 是该领域首个鲁棒性评测基准(4890 个物体-功能对,7 种腐败,5 个严重度),填补了评估空白
局限与展望¶
- 当前用 PointNet++ 作为 3D 骨干,较为基础;换用 Point Transformer 或 3D 基础模型可能进一步提升
- 3DGS 渲染的深度图着色使用手工色图,可能不是最优的视觉特征输入
- 训练需要渲染多视角(V 个视角),增加了训练时间和显存消耗
- 文本提示的设计("Given a depth map of a [object] in [view]")较为简单,更复杂的 prompt engineering 或许有帮助
- 仅评估了单物体场景,多物体交互场景中的功能可供性识别尚未探索
相关工作与启发¶
- vs LASO: 同样利用文本条件进行开放词汇功能检测,但仅用 3D 骨干。GEAL 通过 2D 先验在 Unseen 上显著更强(aIoU +14.4%)
- vs IAGNet: 图像-点云跨模态方法,但用的是 手工设计的图像特征。GEAL 用预训练 DINOv2 提供更强的语义理解
- 与 3DGS 社区的交叉:GauSSian splatting 在此不是为了渲染质量,而是为了建立可微的 3D-2D 对应关系。这为 3DGS 在下游视觉理解任务中的应用开辟了新方向
- 可以考虑将 GEAL 的框架扩展到机器人操作(从 affordance 到 grasp planning)
评分¶
- 新颖性: ⭐⭐⭐⭐ 3DGS 作为跨模态桥梁 + 一致性对齐的组合是新的,但各组件本身不算全新
- 实验充分度: ⭐⭐⭐⭐⭐ 两个标准数据集 + 两个腐败基准 + 完整的基线对比 + 未见类别评估
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,方法描述详细,公式规范
- 价值: ⭐⭐⭐⭐ 腐败基准是实质贡献,框架思路可迁移,对机器人应用有直接帮助
相关论文¶
- [CVPR 2025] CrossOver: 3D Scene Cross-Modal Alignment
- [CVPR 2025] UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting
- [CVPR 2025] 3D Gaussian Inpainting with Depth-Guided Cross-View Consistency
- [CVPR 2025] IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments
- [CVPR 2026] AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis