Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images¶

会议: ECCV 2024
arXiv: 2303.11530
代码: 无
领域: 语义分割 / 主动学习 / 铰接物体理解
关键词: 可运动部件分割, 主动学习, 由粗到细, 姿态感知注意力, 实景标注

一句话总结¶

提出首个面向真实室内场景RGB图像中可运动部件实例分割的主动学习框架，通过姿态感知masked attention网络实现由粗到细的分割，仅需人工标注11.45%的图像即可获得全量验证的高质量分割结果，相比最优非AL方法节省60%人工时间。

背景与动机¶

日常物体（柜子、冰箱、洗碗机等）大多有可运动部件（门、抽屉），理解这些部件对机器人操作和具身AI至关重要。现有方法如OPD和OPDMulti虽然能从图像中检测可开启部件，但它们的训练数据来源有问题——先在3D重建网格上标注，再投影到2D图像，这带来了重建误差和投影误差。更致命的是，合成数据训练的模型在真实场景上表现急剧下降（分割精度从~75%掉到~30%）。核心瓶颈在于真实图像上的高质量部件分割标注成本太高，直接标注不现实，间接3D投影标注质量又差。

核心问题¶

如何以最小的人工成本，在真实场景RGB图像上获得高精度的可运动部件实例分割标注？论文把这个问题形式化为：给定一批未标注的真实图像，目标是让所有图像都获得人工验证过的精确分割结果，同时让需要手动标注的图像数量尽可能少。

方法详解¶

整体框架¶

方法分为两大部分：一个两阶段的姿态感知masked attention网络（完成分割预测）和一个由粗到细的主动学习策略（迭代优化标注）。输入是单张RGB图像，输出是图中所有铰接物体的可运动部件的实例分割mask及语义标签（door/drawer）。

关键设计¶

粗阶段——物体级感知: 输入图像通过MaskRCNN backbone提取多尺度特征和物体检测框。检测框的归一化坐标被编码为object query embedding，送入改造的Deformable DETR编解码器。解码后的query通过四个MLP头分别预测：物体类别、6DoF姿态、交互方向（6个离散方向之一，表示部件运动的主方向）、物体mask。利用估计的3D姿态和交互方向，计算出物体交互面对应的2D区域，结合物体mask裁剪出只包含交互面的精炼mask，过滤掉背景和物体无关面的干扰。
细阶段——部件级分割: 基于Mask2Former的masked attention decoder，由三层级联组成。以粗阶段输出的精炼mask和像素解码器上采样的特征为输入，通过逐层细化产生可运动部件的实例分割mask、边界框和语义标签。姿态感知的精炼mask使得网络只需关注物体交互面区域的特征，大幅降低了分割难度。
由粗到细的主动学习策略: 分两轮进行：(a) 粗AL——对交互方向预测进行人工验证/修正，建立可靠的精炼mask先验；(b) 细AL——对部件分割结果进行三类分拣：perfect（直接纳入训练集）、missed（人工用labelme全量标注后纳入训练集）、fair（留在测试集等下轮再评估）。每轮迭代后训练集扩大、模型更强、需要手动标注的比例持续下降，直到测试集清空。

损失函数 / 训练策略¶

总损失 \(L = L_{class} + L_{dir} + L_{om} + L_{pos} + L_{fine}\)，其中 \(L_{pos} = \lambda_t L_t + \lambda_{rot} L_{rot}\)（L2位移损失 + geodesic旋转损失，\(\lambda_t=2, \lambda_{rot}=1\)）。先在PartNet-Mobility合成数据（~32K张）上预训练2K epochs，再在真实图像上微调4.5K epochs。微调时固定MLP权重（因为真实数据没有姿态GT）。

实验关键数据¶

数据集	指标	本文(full)	OPDFormer-C	Ours w/o AL	提升
自建数据集(500张)	segm mAP@0.5	91.3	68.4	77.3	+22.9 vs SOTA
OPDReal	segm mAP@0.5	51.6	46.3	-	+5.3
OPDMulti	segm mAP@0.5	31.5	27.6	-	+3.9

标注效率对比（2000张图像）： | 方法 | 需手动标注图像数 | 总耗时(h) | |------|-----------------|----------| | Grounded-SAM (非AL) | 1,888 | 35.5 | | OPDFormer-C (非AL) | 792 | 16.3 | | Ours (AL) | 229 | 6.5 |

消融实验要点¶

完整系统（mask+pose+交互方向+AL）达91.3 mAP，去掉AL→77.3（-14.0），去掉pose和交互方向→89.1（-2.2），全去掉仅留AL→87.3（-4.0）
Coarse-to-fine AL vs 仅Fine AL：在500张时差异仅4.5%，但在2000张时差距拉大到13%以上，说明由粗到细策略对大规模标注更有效
姿态和交互方向预测的引入是效率提升的关键——通过精炼mask过滤无关区域，使得fair预测减少、AL迭代次数降低

亮点¶

巧妙利用问题层次性: 物体→交互面→部件的层次天然对应粗→细策略，不是硬套框架而是真正利用了任务结构
交互方向预测是亮点设计: 用6DoF姿态+离散交互方向来定位物体的"交互面"，这比直接分割部件要简单得多，而且错误容易被人工快速纠正
AL中三类分拣策略实用: perfect/missed/fair的分类让人工只需处理最难的样本，fair的保留避免了contaminating训练集

局限性 / 可改进方向¶

仅支持6类室内铰接物体（Storage/Fridge/Dishwasher等），且只有door/drawer两种部件标签，泛化到更多物体类型和运动形式（如旋钮、滑动）未验证
依赖6DoF姿态估计，而微调时姿态没有GT，可能存在姿态漂移问题
数据集只有2550张图像，规模偏小；标注质量依赖人工验证者的一致性
未与SAM系列的few-shot/prompt-based分割做更深入的结合对比

与相关工作的对比¶

vs OPDFormer-C: 同样基于Mask2Former，但OPDFormer-C没有利用物体姿态和交互方向信息，分割时受背景和无关物体面干扰大。本文通过粗阶段的姿态感知过滤，把分割区域压缩到交互面附近，效果显著优于OPDFormer-C（91.3 vs 68.4）。
vs Grounded-SAM: 通用视觉语言大模型在可运动部件这种细粒度任务上零域迁移很弱（mAP仅23.1），说明通用模型不能替代任务特定设计。
vs 主动分割方法(ECCV2022的点/区域监督): 现有主动标注方法用点击/区域来修正mask，但对多部件铰接物体，点选监督存在歧义。本文选择对整张图像做分类（perfect/missed/fair）而非像素级修正，更适合多实例场景。

启发与关联¶

这篇论文的核心启发在于：当标注成本是瓶颈时，可以利用任务的层次结构设计由粗到细的主动学习策略，先用低成本高准确率的粗判断（交互方向验证）来约束难度更大的细粒度任务（部件分割）。这种"先易后难、逐级约束"的思路可迁移到其他层次化标注任务。

评分¶

新颖性: ⭐⭐⭐⭐ 首次将AL框架引入可运动部件分割，粗细结合利用层次结构是好想法
实验充分度: ⭐⭐⭐⭐ 三个数据集对比、消融实验、效率分析都比较充分
写作质量: ⭐⭐⭐⭐ 问题动机清晰，pipeline描述完整，但公式符号有些冗余
价值: ⭐⭐⭐⭐ 对机器人操作和具身AI的数据准备有实际意义，但任务场景较窄