PartField: Learning 3D Feature Fields for Part Segmentation and Beyond¶
会议: ICCV 2025
arXiv: 2504.11451
代码: https://research.nvidia.com/labs/toronto-ai/partfield-release/ (项目页)
领域: 语义分割
关键词: 3D 部件分割, 特征场, 对比学习, 前馈模型, 层级分解
一句话总结¶
PartField 通过前馈模型学习连续 3D 特征场,用对比学习从混合的 2D/3D 部件提案中蒸馏知识,在类别无关的 3D 部件分割上比现有方法精度提高 20%+ 同时推理速度快数个数量级。
研究背景与动机¶
3D 部件级理解(part-level understanding)是形状编辑、物理仿真、机器人操控和几何处理的关键能力,但 3D 部件分割面临两大根本挑战:
挑战一:数据稀缺。现有 3D 部件标注数据集(如 PartNet、ShapeNetPart)规模小、类别有限,监督学习方法难以泛化到未见类别。虽然一些方法利用 2D 基础模型(SAM)的先验来规避 3D 标注依赖,但大多数(如 Ultrametric Feature Fields、SAMPart3D)需要逐形状优化:渲染多视角 → 2D 分割 → 融合/蒸馏到 3D。这导致: - 推理极慢(分钟到小时级别) - 多视角预测不一致 - 对 2D 模型噪声敏感
挑战二:部件定义的模糊性。什么算一个"部件"?整只手是一个部件,还是每根手指是单独的部件?过去的方法要么预定义部件模板(如 PartSLIP),要么依赖文本 prompt(如 Find3D)。但: - 模板/文本无法覆盖所有可能的部件粒度 - 不同数据集的部件标注标准不一致,难以联合训练 - 纯几何的部件可能没有明确的语言描述
PartField 的核心 idea:不预定义部件模板或文本,而是学习一个连续的 3D 特征场。部件的概念由特征距离隐式编码——同一部件内的点特征相近,不同部件的点特征疏远。通过精心设计的对比学习目标,模型可以从不同粒度、不同定义标准的 2D/3D 部件提案中学习,克服标注不一致性。使用前馈模型(非逐形状优化),实现快速推理和跨形状一致性。
方法详解¶
整体框架¶
给定 3D 形状 \(S\)(可以是 mesh、点云或 3D Gaussian Splats),PartField 前馈预测一个连续特征场 \(f(\mathbf{p}; S): \mathbb{R}^3 \to \mathbb{R}^n\)。训练使用对比损失,推理时对特征聚类得到层级部件分解。
核心流程: 1. 输入点云 → PVCNN 编码器提取逐点特征 2. 正交投影到三个轴对齐平面 → 初始 triplane 表示 3. 2D CNN 下采样 → Transformer(6 层)处理 → 转置 CNN 上采样 → 输出 triplane 4. 对任意 3D 查询点,从 triplane 查询并求和特征 5. 聚类(agglomerative 或 k-means)得到部件分割
关键设计¶
-
混合 2D/3D 部件提案训练:
- 功能:从两个来源收集部件提案作为训练信号,不要求提案语义一致
- 2D 提案:对 Objaverse 约 34 万形状渲染 RGB/法线图,用 SAM2 密集采样点 prompt 生成 2D mask,反投影到 3D。不同 mask 自然覆盖不同粒度
- 3D 提案:利用 PartNet(约 3 万形状,24 类)的层级部件标注。将 mesh 转为四面体网格以采样内部点
- 设计动机:2D 提案提供开放世界能力和大规模数据,3D 提案提供完整的内部结构监督和人工语义标注。二者互补
-
Triplet 对比学习:
- 功能:对每个部件提案 \(P\),采样三元组 \((\mathbf{p}_a, \mathbf{p}_b, \mathbf{p}_c)\),其中 \(\mathbf{p}_a, \mathbf{p}_b \in P\)(正样本对),\(\mathbf{p}_c \in S \setminus P\)(负样本)
- 核心损失函数(相对式对比损失):
- \(\mathcal{L} = -\frac{1}{2} \left( \log \frac{\text{sim}(f(\mathbf{p}_a), f(\mathbf{p}_b))}{\text{sim}(f(\mathbf{p}_a), f(\mathbf{p}_b)) + \text{sim}(f(\mathbf{p}_a), f(\mathbf{p}_c))} + \log \frac{\text{sim}(f(\mathbf{p}_b), f(\mathbf{p}_a))}{\text{sim}(f(\mathbf{p}_b), f(\mathbf{p}_a)) + \text{sim}(f(\mathbf{p}_b), f(\mathbf{p}_c))} \right)\)
- 其中 \(\text{sim}(u, v) = \exp(\cos(u, v) / \tau)\),\(\tau\) 是可学习温度
- 与先前方法的关键区别:不直接最小化/最大化特征距离(pull/push loss),而只约束相对关系(\(\mathbf{p}_a\) 更接近 \(\mathbf{p}_b\) 而非 \(\mathbf{p}_c\))。这自然支持多尺度部件而无需额外的缩放条件
- 设计动机(图 3):一个点可能同时属于多个不同尺度的部件(如手指 ⊂ 手 ⊂ 手臂)。直接 push/pull 在不同尺度提案间会产生冲突,而 triplet 的相对约束允许特征场隐式编码层级关系
-
Hard Negative Mining(困难负样本挖掘):
- 功能:混合三种负样本采样策略提升训练效率
- 三种策略:
- 均匀负样本:从提案互补区域均匀采样
- 3D 困难:偏好在欧氏空间中靠近 \(\mathbf{p}_a\) 的负样本(部件边界附近)
- 特征困难:偏好在特征空间中靠近 \(\mathbf{p}_a\) 的负样本
- 对多个负样本并行计算损失(在分母中累加 \(\text{sim}(\mathbf{p}_a, \mathbf{p}_c)\)),提升效率
- 设计动机:消融实验(图 9)显示困难负样本挖掘显著锐化部件边界
-
前馈架构(PVCNN + Triplane + Transformer):
- 功能:将点云输入编码为 triplane 特征场
- 架构细节:特征场 448 维,triplane 分辨率 \(512^2\),128 通道,Transformer 6 层。输入 10 万点/形状
- 训练:8 块 A100 GPU,2 周
- 优势:(a) 快速推理(<10 秒 vs 分钟~小时);(b) 对噪声和不一致标签鲁棒(大规模训练的平均效应);(c) 跨形状特征空间自然一致
损失函数 / 训练策略¶
- 仅使用上述 triplet 对比损失
- 所有形状归一化到 \([-1, 1]^3\)
- 训练数据:Objaverse ~34 万形状(2D 提案)+ PartNet ~3 万形状(3D 提案,仅占 8%)
- SAM2 密集采样 \(32 \times 32\) 点 prompt,每张图生成多个尺度的 mask
实验关键数据¶
主实验¶
PartObjaverse-Tiny(200 形状,开放世界):
| 方法 | 类型 | 平均 mIoU↑ | 推理时间 |
|---|---|---|---|
| PartSLIP | 文本 prompt | 31.54 | ~4min |
| Find3D | 文本 prompt, 前馈 | 21.28 | ~10s |
| Ultrametric | 逐形状优化 | 46.39 | ~1.5h |
| SAMesh | 逐形状优化 | 56.86 | ~7min |
| SAMPart3D | 逐形状优化 | 53.47 | ~15min |
| PartField | 前馈 | 79.18 | ~10s |
PartField 以 79.18% mIoU 大幅超越第二名 SAMesh(56.86%),提升 22.3 个百分点,同时推理速度与 Find3D 并列最快。
PartNetE(1906 形状,45 类可动部件):
| 方法 | 平均 mIoU↑ | 推理时间 |
|---|---|---|
| PartSLIP | 34.94 | ~4min |
| Find3D | 21.69 | ~10s |
| SAMesh | 26.66 | ~7min |
| SAMPart3D | 56.17 | ~15min |
| PartField | 59.10 | ~10s |
消融实验¶
| 配置 | mIoU↑ | 说明 |
|---|---|---|
| Objaverse (2D) only | 77.70 | 仅用 2D 提案,已很强 |
| + PartNet (3D) | 77.90 | 3D 提案小幅提升 |
| + Hard Negative | 78.90 | 困难负样本显著改善 |
| All combined | 79.20 | 最优组合 |
关键发现¶
- 文本 prompt 方法在开放世界场景表现最差(Find3D: 21.28, PartSLIP: 31.54),说明用语言精确描述 3D 部件仍是困难问题
- 逐形状优化方法受多视角不一致性困扰,前馈模型通过大规模训练的平均效应自然抵消噪声
- 即使 PartNet 3D 数据仅占训练数据的 8% 且只有 24 类,仍对开放世界任务有贡献
- 跨形状一致性自然涌现:未使用任何跨形状监督,但特征空间在不同形状间表现出语义一致性(如不同姿态的角色、不同类型的飞机)
- PartField 可直接应用于 AI 生成资产(Trellis、Edify3D)、真实 3D Gaussian Splats、CAD 模型等多种模态
亮点与洞察¶
- "相对式对比"替代"绝对式 pull/push"是处理多尺度/层级标注的优雅方案。不需要显式的尺度条件,让模型自己从数据中发现层级结构
- 前馈模型在鲁棒性上的优势 被清楚展示:逐形状优化对每个形状的 2D 预测噪声敏感,而前馈模型在大规模训练中学到的 prior 能很好地平滑噪声
- 跨形状一致性是"意外收获"(emergent property),这暗示对比学习在大规模 3D 数据上的 representation learning 潜力巨大
- Triplane 表示使得特征场可以在任意位置连续查询,支持分层聚类直接提取层级结构
局限与展望¶
- PVCNN + triplane 架构是外在的(extrinsic),特征与 3D 位置弱相关,跨形状应用要求形状方向一致
- 目前仅在物体尺度评估,未扩展到大场景级别
- 跨形状应用(co-segmentation、correspondence)仅是小规模探索,需进一步研究
- 3D 提案(PartNet)仅 24 类,若引入更多 3D 标注数据可能进一步提升
相关工作与启发¶
- SAM2 在 2D 的成功被本文系统性地"提升"到 3D,但关键差异是用前馈模型而非逐形状蒸馏
- SimCLR 风格的对比学习被巧妙适配到 3D 几何领域的层级部件学习
- 对于其他需要从多源/多粒度标注学习的 3D 任务(如材质分割、功能分析),triplet 对比学习框架具有直接参考价值
- 跨形状一致性的涌现为 3D foundation model 的研究提供了有力证据
评分¶
- 新颖性: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐
相关论文¶
- [ECCV 2024] PartSTAD: 2D-to-3D Part Segmentation Task Adaptation
- [ICCV 2025] Exploring Probabilistic Modeling Beyond Domain Generalization for Semantic Segmentation
- [ICCV 2025] Implicit Counterfactual Learning for Audio-Visual Segmentation
- [ICCV 2025] Dynamic Dictionary Learning for Remote Sensing Image Segmentation
- [NeurIPS 2025] PartNeXt: A Next-Generation Dataset for Fine-Grained and Hierarchical 3D Part Understanding