GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency¶

会议: CVPR 2025
arXiv: 2412.09511
代码: https://github.com/DylanOrange/geal (有)
领域: 3D视觉
关键词: 3D功能可供性, 跨模态对齐, 高斯溅射, 鲁棒性基准, 2D-3D知识迁移

一句话总结¶

GEAL 提出双分支架构，用 3D 高斯溅射将点云渲染为逼真 2D 图像从而利用预训练 2D 基础模型的泛化能力，通过粒度自适应融合和 2D-3D 一致性对齐实现跨模态知识迁移，在标准和腐败数据基准上全面超越现有 3D 功能可供性方法。

研究背景与动机¶

领域现状：3D 功能可供性学习（Affordance Learning）是指给定语义提示（文字/图像），识别 3D 物体上可以交互的区域（如杯子的把手可以"抓"）。这对机器人操作和人机交互至关重要。当前方法通常用 PointNet++ 等 3D 骨干网络直接从点云学习功能可供性。

现有痛点：(1) 泛化差——标注数据少（PIAD 仅 7012 个点云），3D 骨干网络缺乏大规模预训练的支持，在未见物体类别上性能大幅下降；(2) 鲁棒性差——3D 骨干专注于几何编码，对现实中常见的噪声/腐败（传感器误差、场景复杂度带来的数据损坏）缺乏抗干扰能力。

核心矛盾：2D 领域有 DINO、CLIP 等大规模预训练模型提供强大的语义理解和泛化能力，但 3D 领域缺乏同等规模的预训练。如何将 2D 模型的知识迁移到 3D 任务是关键挑战。直接将 3D 点云投影到 2D 会得到稀疏的点，丢失语义和深度信息，无法有效利用 2D 骨干。

本文目标 (1) 建立有效的 3D→2D 映射以利用 2D 基础模型；(2) 设计跨模态对齐机制实现 2D→3D 知识回传；(3) 系统评估 3D 功能可供性的鲁棒性。

切入角度：用 3D 高斯溅射（3DGS）将稀疏点云渲染为逼真图像——保留语义和深度信息的同时，生成适合 DINO 等 2D 骨干处理的密集图像输入。

核心 idea：用 3DGS 桥接 3D 点云和 2D 图像，让 DINO 的视觉先验通过一致性对齐流入 3D 分支，从而增强泛化和鲁棒性。

方法详解¶

整体框架¶

GEAL 采用双分支架构：3D 分支用 PointNet++ 处理点云，2D 分支用 DINOv2 处理通过 3DGS 渲染的深度图像。两个分支各有独立的文本编码器（RoBERTa）。通过粒度自适应融合对齐视觉-文本特征，通过 2D-3D 一致性对齐传播跨模态知识。最终由共享的 transformer 解码器预测功能可供性分数。训练分两阶段：先训练 2D 分支，再冻结 2D 分支训练 3D 分支。推断时仅用 3D 分支。

关键设计¶

3DGS 驱动的 3D-2D 映射:
- 功能：从稀疏点云生成逼真的 2D 多视角图像，为 2D 分支提供高质量输入
- 核心思路：将高斯中心设置为点云坐标 \(\boldsymbol{\mu} = \mathbf{P}\)，手动固定协方差 \(\Sigma\) 和不透明度 \(\alpha\)（训练期间不更新，保留原始几何）。用 V 个预设相机位姿渲染深度图，再应用预定义的彩色映射表生成伪色彩图像 \(\mathbf{I} \in \mathbb{R}^{V \times 3 \times H \times W}\)。同时将功能可供性分数作为灰度颜色 \(\mathbf{c} = \mathbf{y}\) 渲染出 2D 功能可供性 mask \(\mathbf{y}_{2D}\)，建立精确的 3D→2D 对应关系
- 设计动机：3DGS 的 \(\alpha\)-blending 比直接投影提供了更平滑的过渡、更完整的遮挡处理和更准确的深度感知，使渲染图像更适合 DINOv2 的特征提取
粒度自适应融合模块（Granularity-Adaptive Fusion Module, GAFM）:
- 功能：在多个特征尺度上自适应融合视觉和文本特征
- 核心思路：包含两个子机制。(a) 灵活粒度特征聚合：拼接最后 m 层的多尺度特征，通过一个门控函数加带噪声的 softmax 计算每层的自适应权重 \(\mathbf{W} = \text{Softmax}(\mathbf{f}_{con} \cdot \mathbf{W}_g + \sigma \cdot \epsilon)\)，然后加权求和得到聚合特征。噪声引入增强了训练的探索性。(b) 文本条件视觉对齐：用 transformer 块做文本→视觉的交叉注意力，将文本特征增强后再反向查询视觉特征，使视觉表示嵌入问题相关的信息
- 设计动机：功能可供性可能跨越多个物体部件（"坐"涉及椅面和靠背），需要多粒度特征。3D 分支（PointNet++）各层空间分辨率和特征维度不同，不能简单拼接，需要先做文本对齐再聚合
2D-3D 一致性对齐模块（Consistency Alignment Module, CAM）:
- 功能：将 2D 分支的丰富语义知识迁移到 3D 分支
- 核心思路：将 3D 增强特征用 Conv1D 降维，然后利用 3DGS 的渲染管线将每个点的特征向量作为高斯属性渲染到 2D，得到投影特征 \(\mathbf{F}(v) = \sum_{i} \mathbf{f}_i \alpha_i \prod_{j<i}(1-\alpha_j)\)。同时将 2D 增强特征用 Conv2D 上采样到相同分辨率。用 MSE 损失 \(\mathcal{L}_{consis} = \text{MSE}(\mathbf{f}_{cam}^{3D-2D}, \mathbf{f}_{cam}^{2D})\) 强制 3D 投影特征与 2D 特征在共享空间中对齐
- 设计动机：2D 分支用冻结的 DINOv2 提取特征，包含丰富的语义先验。通过特征级对齐而非输出级蒸馏，可以更细粒度地传递知识。3DGS 的可微渲染使得梯度可以从 2D 对齐损失回传到 3D 分支

损失函数 / 训练策略¶

2D 分支损失：\(\mathcal{L}^{2D} = \mathcal{L}_{BCE}^{2D} + \mathcal{L}_{Dice}^{2D}\)。3D 分支损失：\(\mathcal{L}^{3D} = \mathcal{L}_{BCE}^{3D} + \mathcal{L}_{Dice}^{3D} + \mathcal{L}_{consis}\)。两阶段训练：(1) 训练 2D 分支 50 epochs；(2) 冻结 2D 分支（除 CAM 外），训练 3D 分支 50 epochs。Adam 优化器，lr=1e-4，步进学习率调度。DINOv2 冻结，RoBERTa 微调。推断仅用 3D 分支，无需渲染。

实验关键数据¶

主实验¶

PIAD 数据集（7012 点云，23 类物体，17 种功能可供性）：

方法	划分	aIoU↑	AUC↑	SIM↑	MAE↓
IAGNet	Seen	20.5	84.9	0.545	0.098
LASO	Seen	19.7	84.2	0.590	0.096
GEAL	Seen	22.5	85.0	0.600	0.092
IAGNet	Unseen	8.0	71.8	0.352	0.127
LASO	Unseen	8.0	69.2	0.386	0.118
GEAL	Unseen	8.7	72.5	0.390	0.102

LASO 数据集（19751 对，8434 物体）：

方法	划分	aIoU↑	AUC↑	SIM↑	MAE↓
LASO	Seen	20.8	87.3	0.629	0.093
GEAL	Seen	22.0	86.7	0.634	0.092
LASO	Unseen	14.6	80.2	0.507	0.119
GEAL	Unseen	16.7	80.9	0.567	0.106

消融实验¶

（基于论文描述的模块贡献分析）

组件	作用
3DGS 映射	将稀疏点云转化为 DINOv2 可处理的密集输入
GAFM	多粒度特征聚合 + 文本条件对齐
CAM	2D→3D 知识迁移的核心桥梁
两阶段训练	先固化 2D 知识，再传递到 3D

关键发现¶

在 Unseen 物体上的提升最显著：PIAD Unseen 的 MAE 从 0.118 降到 0.102（13.6%↓），表明 2D 先验确实增强了泛化
LASO Unseen 上 aIoU 提升 14.4%（14.6→16.7），SIM 提升 11.8%（0.507→0.567），跨类别泛化效果突出
作者还创建了 PIAD-C 和 LASO-C 两个腐败数据基准（7 种腐败类型 × 5 个严重度），首次系统评估了 3D 功能可供性方法的鲁棒性
DINOv2 作为冻结的 2D 骨干提供了稳定的特征锚点，使 3D 分支的训练更加稳定
推断时只需 3D 分支，不增加计算成本——2D 分支仅在训练阶段使用

亮点与洞察¶

3DGS 作为跨模态桥梁的新用途：不是用 3DGS 做渲染或重建，而是将其作为 3D→2D 的可微映射工具，巧妙绕开了"点云直接投影太稀疏"的问题。这个思路可推广到任何需要将 3D 特征转化为 2D 表示的场景
推断时零额外成本：虽然训练了一个完整的 2D 分支，但推断时完全丢弃，只用 3D 分支。这种"训练时蒸馏、推断时独立"的设计在效率和效果之间取得了好的平衡
腐败数据基准的贡献价值：PIAD-C 和 LASO-C 是该领域首个鲁棒性评测基准（4890 个物体-功能对，7 种腐败，5 个严重度），填补了评估空白

局限与展望¶

当前用 PointNet++ 作为 3D 骨干，较为基础；换用 Point Transformer 或 3D 基础模型可能进一步提升
3DGS 渲染的深度图着色使用手工色图，可能不是最优的视觉特征输入
训练需要渲染多视角（V 个视角），增加了训练时间和显存消耗
文本提示的设计（"Given a depth map of a [object] in [view]"）较为简单，更复杂的 prompt engineering 或许有帮助
仅评估了单物体场景，多物体交互场景中的功能可供性识别尚未探索

评分¶

新颖性: ⭐⭐⭐⭐ 3DGS 作为跨模态桥梁 + 一致性对齐的组合是新的，但各组件本身不算全新
实验充分度: ⭐⭐⭐⭐⭐ 两个标准数据集 + 两个腐败基准 + 完整的基线对比 + 未见类别评估
写作质量: ⭐⭐⭐⭐ 框架图清晰，方法描述详细，公式规范
价值: ⭐⭐⭐⭐ 腐败基准是实质贡献，框架思路可迁移，对机器人应用有直接帮助