InstructPart: Task-Oriented Part Segmentation with Instruction Reasoning¶

会议: ACL 2025
arXiv: 2505.18291
代码: https://zifuwan.github.io/InstructPart/ (有)
领域: 分割 / 视觉语言模型
关键词: 部件分割, 任务导向, 指令推理, VLM, affordance, benchmark

一句话总结¶

提出 InstructPart，首个将任务导向指令与部件级分割结合的真实世界 benchmark——2400 张图像、48 类物体、44 类部件、9600 条人工标注的任务指令，评估发现当前 VLM 在指令驱动的部件分割上严重不足，基于 LISA+DINOv2 的 baseline 微调后性能提升约 100%。

研究背景与动机¶

领域现状：大型视觉语言模型（VLM）在物体级理解上表现出色——目标检测、语义分割、referring segmentation 等任务。但大多数模型将物体视为不可分割的整体，忽略了组成部件。
现有痛点：(1) 现有部件分割数据集（PartImageNet/Pascal-Part/PACO）只有物体-部件标注，没有任务指令——无法评估"给定任务推理哪个部件"的能力；(2) 机器人/affordance 数据集（UMD/AGD20K）的affordance 类别有限或只有点标注/来自仿真；(3) 指令中不直接提及部件名（如说"冲马桶"而非"按马桶手柄"），需要推理。
核心矛盾：VLM 能理解语言指令也能做分割，但将两者结合到部件粒度的任务推理上，现有模型几乎无法胜任。
本文要解决什么：(1) 构建联结任务指令和部件分割的 benchmark；(2) 评估现有 VLM 的部件推理能力；(3) 提供 baseline 方法。
切入角度：日常家务场景——给定"倒些水"的指令和水壶图片，模型需推理出应该抓水壶的"把手"，并输出把手的分割 mask。
核心 idea：将部件分割从"识别"问题升级为"推理"问题——模型需要从隐含指令中推断目标部件。

方法详解¶

整体框架¶

InstructPart 是 benchmark + 简单 baseline。核心贡献在数据集构建和全面评估。

关键设计¶

两个评估任务:
TRPS（Task Reasoning Part Segmentation）：输入自然语言任务指令+图像，输出目标部件 mask。指令中不直接提及部件名（如"Flush the toilet"而非"Press the toilet handle"），需要推理
ORPS（Oracle Referring Part Segmentation）：输入部件名+图像，直接定位。可附加 affordance 信息（如"handle of the cup that can be held"）
设计动机：TRPS 评估推理+视觉 grounding 双重能力；ORPS 仅评估 grounding，控制变量
数据集构建:
2400 张真实图像，48 类物体（家居日常用品），均匀分布
44 类部件 + 30 种 affordance + 37 种 action
每张图配 4 条任务指令（人工 + GPT-4 改写）+ 手标分割 mask
Affordance 分两层：低层（pull/push/twist 等操作动作）和高层（turn on/pick up 等功能动作）
6 名专家标注，GPT-4 润色+人工验证质量
PISA Baseline:
做什么：基于 LISA（LLaVA + SAM decoder）的改进版
核心思路：用冻结 DINOv2 替代 SAM encoder 做特征提取，线性层融合多层 DINOv2 特征，保留 SAM 的 mask decoder（TransConv + 上采样交替解码）
设计动机：DINOv2 在提取部件级对应关系上优于 SAM，微调后在 TRPS 上 gIoU 几乎翻倍

评估指标¶

gIoU：所有图像 IoU 的平均
cIoU：全局累积交集/全局累积并集
P@50：IoU>0.5 的比例
P@50:95：多阈值平均精度

实验关键数据¶

主实验（TRPS 任务，人工标注指令）¶

方法类型	方法	gIoU↑	cIoU↑	P@50↑
开放词汇分割	VLPart	0.39	1.16	0.00
开放词汇分割	OVSeg	22.44	14.11	15.33
Referring 分割	G-SAM	29.95	21.45	25.17
推理分割	LISA	32.11	30.25	30.00
推理分割	MiniGPT-v2	26.29	19.46	24.00
微调 baseline	PISA	~60	~55	~55

（PISA 微调后约 2× 提升）

ORPS 任务 vs TRPS 任务对比¶

模型	ORPS gIoU	TRPS gIoU	差距
LISA	34.46	32.11	-2.35
G-SAM	34.33	29.95	-4.38
平均	22.56	17.49	-5.07

关键发现¶

当前 VLM 在部件级推理上严重不足：最好的模型 LISA 在 TRPS 上只有 32.11 gIoU，远低于物体级 referring 分割的典型表现
推理是主要瓶颈：ORPS（给部件名）vs TRPS（给任务指令）有约 5 个点差距，说明从指令推理到部件名是额外难点
VLPart 在 TRPS 上近乎失败：开放词汇部件分割模型无法处理复杂指令，gIoU 仅 0.39
微调数据质量高：用 InstructPart 训练集微调 PISA 后，TRPS 性能翻倍，说明数据集有效
GPT-4 改写指令不总是更好：某些模型在人工指令上表现更好，提示指令多样性不等于更好的评估

亮点与洞察¶

"任务→部件"的推理范式：填补了从物体级 grounding 到部件级任务推理的评估空白。这个范式对机器人操作、辅助技术有直接价值
指令中隐含部件名：故意不在指令中提及部件名（"倒水"而非"握住把手"），迫使模型做真正的推理，更接近真实交互场景
Affordance 双层标注：低层操作动作+高层功能动作，为 affordance 研究提供了更细粒度的标注

局限性 / 可改进方向¶

2400 张图规模偏小，48 类物体可能不够覆盖所有日常场景
每张图只有一个目标物体的标注，多物体场景未考虑
PISA baseline 较简单（LISA+DINOv2），更强的架构（如 Grounding DINO v2 + SAM2）可能有更大提升空间
未评估 GPT-4V/Gemini 等闭源模型在 TRPS 上的零样本表现
数据集现仅含静态图像，视频场景的动态部件分割未涉及

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个连接任务指令与部件分割的 benchmark，问题定义有实际意义
实验充分度: ⭐⭐⭐⭐ 评估了 3 类共 10 个模型，baseline 有效，但数据集偏小
写作质量: ⭐⭐⭐⭐ 结构清晰，任务定义明确
价值: ⭐⭐⭐⭐⭐ 对机器人操作和具身 AI 有直接推动价值