跳转至

PartField: Learning 3D Feature Fields for Part Segmentation and Beyond

会议: ICCV 2025
arXiv: 2504.11451
代码: https://research.nvidia.com/labs/toronto-ai/partfield-release/ (项目页)
领域: 语义分割
关键词: 3D 部件分割, 特征场, 对比学习, 前馈模型, 层级分解

一句话总结

PartField 通过前馈模型学习连续 3D 特征场,用对比学习从混合的 2D/3D 部件提案中蒸馏知识,在类别无关的 3D 部件分割上比现有方法精度提高 20%+ 同时推理速度快数个数量级。

研究背景与动机

3D 部件级理解(part-level understanding)是形状编辑、物理仿真、机器人操控和几何处理的关键能力,但 3D 部件分割面临两大根本挑战:

挑战一:数据稀缺。现有 3D 部件标注数据集(如 PartNet、ShapeNetPart)规模小、类别有限,监督学习方法难以泛化到未见类别。虽然一些方法利用 2D 基础模型(SAM)的先验来规避 3D 标注依赖,但大多数(如 Ultrametric Feature Fields、SAMPart3D)需要逐形状优化:渲染多视角 → 2D 分割 → 融合/蒸馏到 3D。这导致: - 推理极慢(分钟到小时级别) - 多视角预测不一致 - 对 2D 模型噪声敏感

挑战二:部件定义的模糊性。什么算一个"部件"?整只手是一个部件,还是每根手指是单独的部件?过去的方法要么预定义部件模板(如 PartSLIP),要么依赖文本 prompt(如 Find3D)。但: - 模板/文本无法覆盖所有可能的部件粒度 - 不同数据集的部件标注标准不一致,难以联合训练 - 纯几何的部件可能没有明确的语言描述

PartField 的核心 idea:不预定义部件模板或文本,而是学习一个连续的 3D 特征场。部件的概念由特征距离隐式编码——同一部件内的点特征相近,不同部件的点特征疏远。通过精心设计的对比学习目标,模型可以从不同粒度、不同定义标准的 2D/3D 部件提案中学习,克服标注不一致性。使用前馈模型(非逐形状优化),实现快速推理和跨形状一致性。

方法详解

整体框架

给定 3D 形状 \(S\)(可以是 mesh、点云或 3D Gaussian Splats),PartField 前馈预测一个连续特征场 \(f(\mathbf{p}; S): \mathbb{R}^3 \to \mathbb{R}^n\)。训练使用对比损失,推理时对特征聚类得到层级部件分解。

核心流程: 1. 输入点云 → PVCNN 编码器提取逐点特征 2. 正交投影到三个轴对齐平面 → 初始 triplane 表示 3. 2D CNN 下采样 → Transformer(6 层)处理 → 转置 CNN 上采样 → 输出 triplane 4. 对任意 3D 查询点,从 triplane 查询并求和特征 5. 聚类(agglomerative 或 k-means)得到部件分割

关键设计

  1. 混合 2D/3D 部件提案训练

    • 功能:从两个来源收集部件提案作为训练信号,不要求提案语义一致
    • 2D 提案:对 Objaverse 约 34 万形状渲染 RGB/法线图,用 SAM2 密集采样点 prompt 生成 2D mask,反投影到 3D。不同 mask 自然覆盖不同粒度
    • 3D 提案:利用 PartNet(约 3 万形状,24 类)的层级部件标注。将 mesh 转为四面体网格以采样内部点
    • 设计动机:2D 提案提供开放世界能力和大规模数据,3D 提案提供完整的内部结构监督和人工语义标注。二者互补
  2. Triplet 对比学习

    • 功能:对每个部件提案 \(P\),采样三元组 \((\mathbf{p}_a, \mathbf{p}_b, \mathbf{p}_c)\),其中 \(\mathbf{p}_a, \mathbf{p}_b \in P\)(正样本对),\(\mathbf{p}_c \in S \setminus P\)(负样本)
    • 核心损失函数(相对式对比损失):
      • \(\mathcal{L} = -\frac{1}{2} \left( \log \frac{\text{sim}(f(\mathbf{p}_a), f(\mathbf{p}_b))}{\text{sim}(f(\mathbf{p}_a), f(\mathbf{p}_b)) + \text{sim}(f(\mathbf{p}_a), f(\mathbf{p}_c))} + \log \frac{\text{sim}(f(\mathbf{p}_b), f(\mathbf{p}_a))}{\text{sim}(f(\mathbf{p}_b), f(\mathbf{p}_a)) + \text{sim}(f(\mathbf{p}_b), f(\mathbf{p}_c))} \right)\)
      • 其中 \(\text{sim}(u, v) = \exp(\cos(u, v) / \tau)\)\(\tau\) 是可学习温度
    • 与先前方法的关键区别:不直接最小化/最大化特征距离(pull/push loss),而只约束相对关系(\(\mathbf{p}_a\) 更接近 \(\mathbf{p}_b\) 而非 \(\mathbf{p}_c\))。这自然支持多尺度部件而无需额外的缩放条件
    • 设计动机(图 3):一个点可能同时属于多个不同尺度的部件(如手指 ⊂ 手 ⊂ 手臂)。直接 push/pull 在不同尺度提案间会产生冲突,而 triplet 的相对约束允许特征场隐式编码层级关系
  3. Hard Negative Mining(困难负样本挖掘)

    • 功能:混合三种负样本采样策略提升训练效率
    • 三种策略:
      • 均匀负样本:从提案互补区域均匀采样
      • 3D 困难:偏好在欧氏空间中靠近 \(\mathbf{p}_a\) 的负样本(部件边界附近)
      • 特征困难:偏好在特征空间中靠近 \(\mathbf{p}_a\) 的负样本
    • 对多个负样本并行计算损失(在分母中累加 \(\text{sim}(\mathbf{p}_a, \mathbf{p}_c)\)),提升效率
    • 设计动机:消融实验(图 9)显示困难负样本挖掘显著锐化部件边界
  4. 前馈架构(PVCNN + Triplane + Transformer)

    • 功能:将点云输入编码为 triplane 特征场
    • 架构细节:特征场 448 维,triplane 分辨率 \(512^2\),128 通道,Transformer 6 层。输入 10 万点/形状
    • 训练:8 块 A100 GPU,2 周
    • 优势:(a) 快速推理(<10 秒 vs 分钟~小时);(b) 对噪声和不一致标签鲁棒(大规模训练的平均效应);(c) 跨形状特征空间自然一致

损失函数 / 训练策略

  • 仅使用上述 triplet 对比损失
  • 所有形状归一化到 \([-1, 1]^3\)
  • 训练数据:Objaverse ~34 万形状(2D 提案)+ PartNet ~3 万形状(3D 提案,仅占 8%)
  • SAM2 密集采样 \(32 \times 32\) 点 prompt,每张图生成多个尺度的 mask

实验关键数据

主实验

PartObjaverse-Tiny(200 形状,开放世界)

方法 类型 平均 mIoU↑ 推理时间
PartSLIP 文本 prompt 31.54 ~4min
Find3D 文本 prompt, 前馈 21.28 ~10s
Ultrametric 逐形状优化 46.39 ~1.5h
SAMesh 逐形状优化 56.86 ~7min
SAMPart3D 逐形状优化 53.47 ~15min
PartField 前馈 79.18 ~10s

PartField 以 79.18% mIoU 大幅超越第二名 SAMesh(56.86%),提升 22.3 个百分点,同时推理速度与 Find3D 并列最快。

PartNetE(1906 形状,45 类可动部件)

方法 平均 mIoU↑ 推理时间
PartSLIP 34.94 ~4min
Find3D 21.69 ~10s
SAMesh 26.66 ~7min
SAMPart3D 56.17 ~15min
PartField 59.10 ~10s

消融实验

配置 mIoU↑ 说明
Objaverse (2D) only 77.70 仅用 2D 提案,已很强
+ PartNet (3D) 77.90 3D 提案小幅提升
+ Hard Negative 78.90 困难负样本显著改善
All combined 79.20 最优组合

关键发现

  • 文本 prompt 方法在开放世界场景表现最差(Find3D: 21.28, PartSLIP: 31.54),说明用语言精确描述 3D 部件仍是困难问题
  • 逐形状优化方法受多视角不一致性困扰,前馈模型通过大规模训练的平均效应自然抵消噪声
  • 即使 PartNet 3D 数据仅占训练数据的 8% 且只有 24 类,仍对开放世界任务有贡献
  • 跨形状一致性自然涌现:未使用任何跨形状监督,但特征空间在不同形状间表现出语义一致性(如不同姿态的角色、不同类型的飞机)
  • PartField 可直接应用于 AI 生成资产(Trellis、Edify3D)、真实 3D Gaussian Splats、CAD 模型等多种模态

亮点与洞察

  1. "相对式对比"替代"绝对式 pull/push"是处理多尺度/层级标注的优雅方案。不需要显式的尺度条件,让模型自己从数据中发现层级结构
  2. 前馈模型在鲁棒性上的优势 被清楚展示:逐形状优化对每个形状的 2D 预测噪声敏感,而前馈模型在大规模训练中学到的 prior 能很好地平滑噪声
  3. 跨形状一致性是"意外收获"(emergent property),这暗示对比学习在大规模 3D 数据上的 representation learning 潜力巨大
  4. Triplane 表示使得特征场可以在任意位置连续查询,支持分层聚类直接提取层级结构

局限与展望

  • PVCNN + triplane 架构是外在的(extrinsic),特征与 3D 位置弱相关,跨形状应用要求形状方向一致
  • 目前仅在物体尺度评估,未扩展到大场景级别
  • 跨形状应用(co-segmentation、correspondence)仅是小规模探索,需进一步研究
  • 3D 提案(PartNet)仅 24 类,若引入更多 3D 标注数据可能进一步提升

相关工作与启发

  • SAM2 在 2D 的成功被本文系统性地"提升"到 3D,但关键差异是用前馈模型而非逐形状蒸馏
  • SimCLR 风格的对比学习被巧妙适配到 3D 几何领域的层级部件学习
  • 对于其他需要从多源/多粒度标注学习的 3D 任务(如材质分割、功能分析),triplet 对比学习框架具有直接参考价值
  • 跨形状一致性的涌现为 3D foundation model 的研究提供了有力证据

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐

相关论文