LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation¶

会议: NeurIPS 2025
arXiv: 2510.25263
代码: 有（待发布）
领域: 分割
关键词: 开放词汇部件分割, 物体-部件层次, MLLM, 语言空间层次建模, 实例分割

一句话总结¶

提出LangHOPS，首个基于多模态大语言模型（MLLM）的开放词汇物体-部件实例分割框架，在语言空间中建立object-part层次关系，利用MLLM的知识和推理能力链接多粒度概念，在PartImageNet上以56.9% AP超越SOTA 5.5%，跨数据集设置超4.8%。

研究背景与动机¶

开放词汇分割的粒度局限：当前OVS方法主要关注物体级分割，物体-部件（partonomic）分割仍是开放问题。将物体分解为语义部件（如"汽车→车轮、车门、引擎盖"）对机器人操作、细粒度识别等下游任务至关重要。
现有部件分割方法的不足：
VLPart、PartGLEE等方法依赖启发式或可学习的视觉分组来建模object-part关系
视觉空间的分组缺乏语义先验知识（如"鸟有翅膀和喙"），对未见类别泛化能力差
缺少object-part之间的层次上下文，导致部件解析不精确
核心动机：将object-part层次关系从视觉空间迁移到语言空间，利用MLLM内化的世界知识（"这个物体应该有哪些部件？"）来初始化和细化部件查询（part queries），实现更好的跨类别泛化。

方法详解¶

整体框架¶

LangHOPS采用两阶段架构： 1. 物体分割阶段：检测并分割图像中的物体实例，生成物体查询 \(\mathbf{O}^L\) 2. MLLM驱动的部件解析阶段：将物体查询与语言空间中的层次化部件查询一起输入MLLM，利用MLLM的推理能力细化部件查询 \(\mathbf{P}\)，再送入部件解码器生成最终分割

输入为一张图像和候选物体-部件类别列表，输出为层次化的物体和部件实例分割结果。

关键设计¶

1. 语言空间层次建模（Language-Grounded Hierarchies）

区别于传统方法使用可学习的随机初始化查询，LangHOPS在语言空间中构建部件查询的初始表征：

给定候选部件类别名称，利用object-part之间的语义层次关系构建初始part queries
例如对于"dog"物体，其关联部件"head"、"leg"、"tail"的文本表征被用于初始化对应的part queries
这种初始化方式天然编码了物体-部件的归属关系，比随机初始化的可学习查询具有更好的语义先验

消融验证：用 \(N\) 个可学习查询替代语言层次初始化（"w/o hierarchy"），在PartImageNet上AP从26.7%降至22.5%（-4.2%），证明语言层次的重要性。

2. MLLM驱动的物体-部件解析（MLLM-based Object-Part Parsing）

这是LangHOPS的核心创新模块：

物体分割阶段输出的物体查询 \(\mathbf{O}^L\) 携带了物体的视觉特征
将 \(\mathbf{O}^L\) 与语言层次初始化的部件查询 \(\mathbf{P}^0\) 一起输入MLLM
MLLM基于对物体视觉特征的理解和内化的世界知识，推理出该物体应包含哪些部件，并据此细化部件查询
输出refined part queries \(\mathbf{P}\)，送入部件解码器生成最终部件分割掩码

关键的梯度流设计：部件分割损失的梯度通过MLLM反传到物体查询 \(\mathbf{O}^L\)，实现物体-部件协同训练（Object-Part Synergy）——部件分割的优化同时改善物体分割的质量。

消融验证： - 用Q-Former替代MLLM（"w/o MLLM"），PartImageNet AP从26.7%降至23.2%（-3.5%） - 切断梯度流（"Detached Obj-Part Seg"），物体和部件的注意力分数均下降

3. 物体-部件协同效应

LangHOPS展示了联合训练物体+部件分割比单独训练物体分割更优的协同效应：

"Obj Seg"（仅物体分割）：PartImageNet物体mAP 67.9%
"Obj-Part Seg"（联合训练）：PartImageNet物体mAP 68.3%（+0.4%），部件mAP 14.9%
联合训练不仅提供部件分割能力，还反过来提升物体分割，证明MLLM解析模块的梯度回传有效改善了物体查询的质量

注意力分数分析：协同训练下物体注意力分数从0.76提升到0.82，部件从0.58提升到0.67。

损失函数 / 训练策略¶

两阶段训练：先在物体分割上训练（Stage 1），再联合训练物体+部件分割（Stage 2）。两阶段策略在跨数据集泛化上优于一阶段直接训练
消融对比：两阶段 vs 一阶段在跨数据集设置下AP 26.7 vs 25.4（+1.3），但一阶段在in-domain上略优（58.6 vs 56.9）
训练数据可扩展性：支持渐进加入更多数据集（PPS-116 → +INS → +INS+PART），LangHOPS在加入部件级标注时获得最大增益

实验关键数据¶

跨数据集实验：PPS-116训练 → PartImageNet评测¶

方法	PPS-116 obj	PPS-116 part	PPS-116 AP	+INS+PART AP
PSALM†	31.6	8.27	13.4	21.9
PartGLEE	38.4	9.20	15.6	21.0
LangHOPS	44.5	8.86	16.7	26.7

LangHOPS在加入部件级数据后获得+10.0 AP增益，远超PartGLEE的+5.4和PSALM的+8.5。

In-domain实验：PartImageNet训练+评测¶

方法	obj mAP	part mAP	AP
PSALM†	79.2	40.1	48.7
PartGLEE	81.4	41.5	50.4
LangHOPS	83.9	49.2	56.9

LangHOPS在in-domain上超PartGLEE 6.5% AP，部件mAP提升7.7%。

零样本语义分割¶

方法	PPS-116 hIoU	PartImageNet hIoU	ADE20K hIoU
PartCLIPSeg	38.8	53.9	38.6
PartGLEE	37.1	—	41.8
PartCATSeg	50.4	72.7	50.0
LangHOPS	52.1	72.8	49.5

LangHOPS在PPS-116和PartImageNet上取得最佳hIoU，在ADE20K上与专门为语义分割设计的PartCATSeg持平。

消融实验¶

消融设置	PartImageNet AP	PPS-116 AP
w/o MLLM (Q-Former)	23.2	18.4
w/o hierarchy	22.5	19.1
LangHOPS	26.7	19.8

关键发现¶

数据扩展性：LangHOPS在加入部件级标注时增益最大（+10.0 AP），而PartGLEE反而出现部件mAP回退（+5.9→+5.4），说明缺乏层次上下文时更多数据不一定有益
跨数据集泛化优势：PartImageNet→PPS-116（更多新类和更细部件）方向对所有方法更难，但LangHOPS仍保持优势
MLLM的推理能力：MLLM贡献3.5% AP（vs Q-Former），不仅是特征提取，更是语义推理
协同训练的双向增益：部件分割的优化反过来改善物体分割（0.4% obj mAP提升）

亮点与洞察¶

语言空间层次建模：首次将object-part层次关系从视觉空间移到语言空间，天然利用语义先验
MLLM驱动的部件解析：利用MLLM的世界知识推理物体应有的部件，而非纯视觉分组
协同训练机制：通过梯度回传实现物体-部件双向增益，是一个优雅的多任务设计
强跨数据集泛化：在多个cross-dataset设置中稳定领先，证明语言先验对未见类别的泛化作用

局限性 / 可改进方向¶

计算开销大：MLLM集成显著增加推理成本，不利于实时或端侧部署
训练数据限制：主要使用常见物体/部件类别的数据集，特殊场景（如工业零件、医学影像）可能需要额外微调
2D到3D的扩展：当前仅限2D图像分割，结合2D-to-3D lifting用于机器人等3D应用是重要方向
可探索用更轻量的语言模型替代MLLM以降低开销
可结合SAM的prompt-based分割能力进一步增强部件掩码质量

评分¶

新颖性: ⭐⭐⭐⭐ 语言空间层次建模+MLLM部件解析，方向新颖
实验充分度: ⭐⭐⭐⭐⭐ in-domain/cross-dataset/zero-shot三设置+充分消融
写作质量: ⭐⭐⭐⭐ 框架清晰，实验设计合理
价值: ⭐⭐⭐⭐ 开辟MLLM在部件级分割的新方向