Action-guided Generation of 3D Functionality Segmentation Data¶

会议: CVPR 2026
arXiv: 2511.23230
代码: 项目页 (有)
领域: 3D视觉 / 具身AI
关键词: 3D功能性分割, 合成数据生成, 动作描述, LLM检索, 场景布局

一句话总结¶

提出 SynthFun3D，首个从动作描述自动生成3D功能性分割训练数据的方法，通过元数据驱动的3D物体检索和场景布局，无需人工标注即可生成精确的部件级交互掩码，合成+真实数据训练在 SceneFun3D 基准上提升 +2.2 mAP / +6.3 mAR / +5.7 mIoU。

任务定义：3D功能性分割——给定自然语言动作描述（如"打开床旁柜子的第二个抽屉"），分割出3D场景中需要交互的部件（如抽屉把手）。这是具身AI的关键感知任务。

核心痛点：标注数据极度匮乏。目前唯一公开数据集 SceneFun3D 仅230个场景3041个功能掩码，采集和标注成本极高（估算25K美元/230场景）。

核心矛盾：深度学习模型需要大量训练数据，但精细的3D功能掩码几乎不可能大规模标注。合成数据在其他感知任务中已成功，但3D功能性分割从未有针对性的数据生成方案。

核心idea：从动作描述出发，利用LLM推理场景构成，检索带部件标注的3D资产，自动生成满足空间语义约束的场景布局和精确功能掩码。

动作描述 → LLM解析（目标物体+功能部件+房间布局）→ 非目标物体从Objaverse检索 → 目标物体从PartNet-Mobility检索（元数据驱动）→ DFS场景布局 → 多视角渲染+材质增强 → RGB帧+功能掩码。

元数据驱动的掩码检索（核心创新）：
- 文本到资产检索：使用 PerceptionEncoder 进行文本-图像相似度检索，保留所有超过阈值的候选
- 需求过滤：LLM根据动作描述推断功能部件要求（如"打开第三个抽屉" → handle ≥ 3），过滤不满足条件的候选
- 功能部件空间排列：计算候选物体中功能部件的3D质心，投影到2D，用LLM判断空间排列是否匹配语义约束（如"左上角抽屉"需要网格排列）
- 层次化元数据：利用PartNet-Mobility的层级关系增强标签（"handle" → "door handle" vs "drawer handle"）消除歧义
- 设计动机：动作描述隐含非常具体的物体结构要求（如"左门"意味双门横向排列），简单文本检索无法处理
场景布局优化：
- LLM生成布局约束子句（如 "nightstand bed "）
- DFS算法搜索满足所有约束的布局方案
- 随机选择一个可行方案
- 设计动机：动作描述中的空间关系（"窗户旁的柜子"）对训练数据有效性至关重要
材质增强渲染：随机生成200种材质（金属/磨砂/塑料/玻璃等），对墙壁和目标物体进行材质替换，以近零成本扩展数据多样性。

训练数据	mAP	AP50	AP25	mAR	mIoU	P-acc
Zero-shot	0	0	0	8.4	0.07	0.003
R (仅真实)	0.31	0.67	1.12	20.22	1.18	0.170
S (仅合成)	0.43	0.90	1.57	18.29	1.23	0.118
S + A (合成+增强)	0.38	1.35	3.60	18.49	2.25	0.176
R + S	1.17	2.92	7.42	26.20	4.40	0.320
R + S + A	2.56	5.17	12.81	26.54	6.91	0.384