Active Coarse-to-Fine Segmentation of Moveable Parts from Real Images¶
会议: ECCV 2024
arXiv: 2303.11530
代码: 无
领域: 语义分割 / 主动学习 / 铰接物体理解
关键词: 可运动部件分割, 主动学习, 由粗到细, 姿态感知注意力, 实景标注
一句话总结¶
提出首个面向真实室内场景RGB图像中可运动部件实例分割的主动学习框架,通过姿态感知masked attention网络实现由粗到细的分割,仅需人工标注11.45%的图像即可获得全量验证的高质量分割结果,相比最优非AL方法节省60%人工时间。
背景与动机¶
日常物体(柜子、冰箱、洗碗机等)大多有可运动部件(门、抽屉),理解这些部件对机器人操作和具身AI至关重要。现有方法如OPD和OPDMulti虽然能从图像中检测可开启部件,但它们的训练数据来源有问题——先在3D重建网格上标注,再投影到2D图像,这带来了重建误差和投影误差。更致命的是,合成数据训练的模型在真实场景上表现急剧下降(分割精度从~75%掉到~30%)。核心瓶颈在于真实图像上的高质量部件分割标注成本太高,直接标注不现实,间接3D投影标注质量又差。
核心问题¶
如何以最小的人工成本,在真实场景RGB图像上获得高精度的可运动部件实例分割标注?论文把这个问题形式化为:给定一批未标注的真实图像,目标是让所有图像都获得人工验证过的精确分割结果,同时让需要手动标注的图像数量尽可能少。
方法详解¶
整体框架¶
方法分为两大部分:一个两阶段的姿态感知masked attention网络(完成分割预测)和一个由粗到细的主动学习策略(迭代优化标注)。输入是单张RGB图像,输出是图中所有铰接物体的可运动部件的实例分割mask及语义标签(door/drawer)。
关键设计¶
-
粗阶段——物体级感知: 输入图像通过MaskRCNN backbone提取多尺度特征和物体检测框。检测框的归一化坐标被编码为object query embedding,送入改造的Deformable DETR编解码器。解码后的query通过四个MLP头分别预测:物体类别、6DoF姿态、交互方向(6个离散方向之一,表示部件运动的主方向)、物体mask。利用估计的3D姿态和交互方向,计算出物体交互面对应的2D区域,结合物体mask裁剪出只包含交互面的精炼mask,过滤掉背景和物体无关面的干扰。
-
细阶段——部件级分割: 基于Mask2Former的masked attention decoder,由三层级联组成。以粗阶段输出的精炼mask和像素解码器上采样的特征为输入,通过逐层细化产生可运动部件的实例分割mask、边界框和语义标签。姿态感知的精炼mask使得网络只需关注物体交互面区域的特征,大幅降低了分割难度。
-
由粗到细的主动学习策略: 分两轮进行:(a) 粗AL——对交互方向预测进行人工验证/修正,建立可靠的精炼mask先验;(b) 细AL——对部件分割结果进行三类分拣:perfect(直接纳入训练集)、missed(人工用labelme全量标注后纳入训练集)、fair(留在测试集等下轮再评估)。每轮迭代后训练集扩大、模型更强、需要手动标注的比例持续下降,直到测试集清空。
损失函数 / 训练策略¶
总损失 \(L = L_{class} + L_{dir} + L_{om} + L_{pos} + L_{fine}\),其中 \(L_{pos} = \lambda_t L_t + \lambda_{rot} L_{rot}\)(L2位移损失 + geodesic旋转损失,\(\lambda_t=2, \lambda_{rot}=1\))。先在PartNet-Mobility合成数据(~32K张)上预训练2K epochs,再在真实图像上微调4.5K epochs。微调时固定MLP权重(因为真实数据没有姿态GT)。
实验关键数据¶
| 数据集 | 指标 | 本文(full) | OPDFormer-C | Ours w/o AL | 提升 |
|---|---|---|---|---|---|
| 自建数据集(500张) | segm mAP@0.5 | 91.3 | 68.4 | 77.3 | +22.9 vs SOTA |
| OPDReal | segm mAP@0.5 | 51.6 | 46.3 | - | +5.3 |
| OPDMulti | segm mAP@0.5 | 31.5 | 27.6 | - | +3.9 |
标注效率对比(2000张图像): | 方法 | 需手动标注图像数 | 总耗时(h) | |------|-----------------|----------| | Grounded-SAM (非AL) | 1,888 | 35.5 | | OPDFormer-C (非AL) | 792 | 16.3 | | Ours (AL) | 229 | 6.5 |
消融实验要点¶
- 完整系统(mask+pose+交互方向+AL)达91.3 mAP,去掉AL→77.3(-14.0),去掉pose和交互方向→89.1(-2.2),全去掉仅留AL→87.3(-4.0)
- Coarse-to-fine AL vs 仅Fine AL:在500张时差异仅4.5%,但在2000张时差距拉大到13%以上,说明由粗到细策略对大规模标注更有效
- 姿态和交互方向预测的引入是效率提升的关键——通过精炼mask过滤无关区域,使得fair预测减少、AL迭代次数降低
亮点¶
- 巧妙利用问题层次性: 物体→交互面→部件的层次天然对应粗→细策略,不是硬套框架而是真正利用了任务结构
- 交互方向预测是亮点设计: 用6DoF姿态+离散交互方向来定位物体的"交互面",这比直接分割部件要简单得多,而且错误容易被人工快速纠正
- AL中三类分拣策略实用: perfect/missed/fair的分类让人工只需处理最难的样本,fair的保留避免了contaminating训练集
局限性 / 可改进方向¶
- 仅支持6类室内铰接物体(Storage/Fridge/Dishwasher等),且只有door/drawer两种部件标签,泛化到更多物体类型和运动形式(如旋钮、滑动)未验证
- 依赖6DoF姿态估计,而微调时姿态没有GT,可能存在姿态漂移问题
- 数据集只有2550张图像,规模偏小;标注质量依赖人工验证者的一致性
- 未与SAM系列的few-shot/prompt-based分割做更深入的结合对比
与相关工作的对比¶
- vs OPDFormer-C: 同样基于Mask2Former,但OPDFormer-C没有利用物体姿态和交互方向信息,分割时受背景和无关物体面干扰大。本文通过粗阶段的姿态感知过滤,把分割区域压缩到交互面附近,效果显著优于OPDFormer-C(91.3 vs 68.4)。
- vs Grounded-SAM: 通用视觉语言大模型在可运动部件这种细粒度任务上零域迁移很弱(mAP仅23.1),说明通用模型不能替代任务特定设计。
- vs 主动分割方法(ECCV2022的点/区域监督): 现有主动标注方法用点击/区域来修正mask,但对多部件铰接物体,点选监督存在歧义。本文选择对整张图像做分类(perfect/missed/fair)而非像素级修正,更适合多实例场景。
启发与关联¶
这篇论文的核心启发在于:当标注成本是瓶颈时,可以利用任务的层次结构设计由粗到细的主动学习策略,先用低成本高准确率的粗判断(交互方向验证)来约束难度更大的细粒度任务(部件分割)。这种"先易后难、逐级约束"的思路可迁移到其他层次化标注任务。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将AL框架引入可运动部件分割,粗细结合利用层次结构是好想法
- 实验充分度: ⭐⭐⭐⭐ 三个数据集对比、消融实验、效率分析都比较充分
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,pipeline描述完整,但公式符号有些冗余
- 价值: ⭐⭐⭐⭐ 对机器人操作和具身AI的数据准备有实际意义,但任务场景较窄