Show, Don't Tell: Detecting Novel Objects by Watching Human Videos¶
会议: CVPR 2026
arXiv: 2603.12751
代码: 无(来自 Robotics and AI Institute)
领域: 目标检测 / 机器人操作
关键词: 新颖物体检测, 人类演示, 自动数据集创建, 定制化检测器, 机器人分拣
一句话总结¶
提出 "Show, Don't Tell" 范式:通过 SODC 管线(HOIST-Former 检测抓取物体 → SAMURAI 跟踪 → DBSCAN 时空聚类)从人类演示视频自动创建标注数据集,训练轻量化 F-RCNN 定制检测器(MOD),在无需任何语言提示的情况下实现新颖物体的实例级检测,在 Meccano 和自采数据集上 mAP 和 precision 超越 GroundingDINO/RexOmni/YoloWorld 等 VLM 基线,端到端集成到真实机器人分拣系统中。
研究背景与动机¶
领域现状:机器人从人类演示中学习任务时,需快速识别演示中出现的新颖物体。大规模物体检测模型分两类:闭集检测器(YOLO、Faster R-CNN)仅检测训练类别内物体,对 OOD 物体无能为力;开集检测器/VLM(GroundingDINO、RexOmni、YoloWorld)理论上可检测新物体,但高度依赖语言提示的精确性。
现有痛点:(1) 闭集检测器无法检测定制制造零件、组装物体等训练分布外物体;(2) VLM 需要繁琐的人工提示工程(prompt engineering)来唯一描述每个物体实例——某些物体难以用语言精确区分(如图 1 中 "green yellow red worm toy" 仍然无法被 VLM 识别);(3) 社区已转向自动化提示调优,但这引入了额外复杂度。
核心矛盾:语言本身的模糊性和不完整性使其成为描述特定物体实例的天然瓶颈——两个外观相似但用途不同的零件可能无法用语言区分,但视觉呈现可以精确传达。
本文目标 完全绕过语言描述的中间媒介,通过人类演示视频中的视觉信号自监督地创建训练数据并训练定制化检测器。
切入角度:与其"告诉"检测器要找什么(Tell),不如直接"展示"给它看(Show)。人类演示视频中手-物交互是天然的监督信号——人抓取的就是任务相关物体。
核心 idea:从人类演示视频中用手-物交互检测+跟踪+时空聚类自动创建标注数据集,训练定制化 F-RCNN 检测器,完全绕过语言提示。
方法详解¶
整体框架¶
三阶段管线:(1) SODC(Salient Objects Dataset Creation)从人类演示视频自动生成标注数据集;(2) MOD(Manipulated Objects Detector)在 SODC 数据集上微调轻量 F-RCNN;(3) 端到端机器人系统集成(计划骨架生成 + MOD 检测 + 场景图 + 执行)。整个理解管线在 15 秒视频上约需 4-7 分钟。
关键设计¶
-
SODC 管线:检测抓取实体
- 功能:从视频中识别人类正在操作的物体
- 核心思路:使用 HOIST-Former 作为手-物交互检测器,对每帧输出人抓取物体的分割 mask。每帧独立处理,不依赖帧间关联(因 HOIST-Former 的标签持久性噪声过大)。该步骤只在人手抓取物体的帧中产生 mask,物体被遮挡或不在手中时无输出
- 设计动机:通过手-物交互定义"任务相关物体"——人抓取的就是需要检测的,避免了任何语言定义
-
SODC 管线:跟踪 + 时空聚类整合
- 功能:将零散的抓取 mask 扩展为全视频的完整物体跟踪,并聚类为每个物体的标注数据集
- 核心思路:跟踪——以 HOIST-Former 输出的每个 mask 为种子,用 SAMURAI 跟踪器前后双向跟踪整个视频,获得大量 tracks(远多于实际物体数,因每个物体在多帧被检测)。空间聚类——对每帧用 DBSCAN(IoU 距离函数)聚类重叠的 bounding box。时间聚类——对每条 track 生成"cluster track"(该 track 在各帧所属空间簇的序列),计算 tracks 间的 Jaccard 相似度聚合到同一物体,丢弃 track 数不足的噪声簇
- 设计动机:纯空间聚类在物体重叠时会错误合并不同物体(如图 3 中 t=30 五个 box 重叠但属于两个物体),时间维度利用 tracks 的运动轨迹差异来区分。组合空间+时间聚类对噪声和短暂遮挡鲁棒
-
MOD:定制化物体检测器
- 功能:在 SODC 自动创建的数据集上训练轻量检测器
- 核心思路:微调预训练 F-RCNN(ResNet50 backbone),标准 RCNN 损失(分类+objectness)。训练 ~3-4 分钟 on 4×T4 GPU。大量数据增强(翻转、形变、亮度、对比度、色彩、裁剪、缩放、模糊、仿射变换)
- 设计动机:不追求通用检测器而为每个任务训练小型专用检测器。虽牺牲通用性,但在特定任务上精度远超通用 VLM,且训练极快
-
端到端机器人集成
- 功能:将 SODC+MOD 集成到真实机器人分拣任务
- 核心思路:(1) 录制人类分拣演示视频;(2) GPT-4o 从视频生成计划骨架(pick/place 序列);(3) SODC 创建数据集 + MOD 训练检测器;(4) MOD 检测操作物体,VLM 检测放置目标(如 basket),场景图聚合点云,按计划骨架执行 pick-and-place
- 设计动机:操作物体用 MOD(新颖、需实例级区分),放置目标用 VLM(语义级即可,如"basket")——两类检测器各司其职
损失函数 / 训练策略¶
- 标准 F-RCNN 损失(分类 + bounding box 回归 + objectness)
- 4×T4 GPU 训练 3-4 分钟
- 大量几何和颜色增强应对有限训练数据
实验关键数据¶
主实验——物体检测性能对比¶
| 数据集 | 方法 | Prompt | mAP₀.₅₋₀.₉₅ | mAR₁ | F1₀.₅₋₀.₉₅ | Precision | Recall |
|---|---|---|---|---|---|---|---|
| Meccano | RexOmni | Human | 0.05 | 0.09 | 0.30 | 0.59 | 0.23 |
| Meccano | GroundingDINO | Human | 0.19 | 0.26 | 0.24 | 0.46 | 0.18 |
| Meccano | YoloWorld | Human | 0.03 | 0.03 | 0.00 | 0.01 | 0.00 |
| Meccano | MOD (Ours) | 无 | 0.06 | 0.10 | 0.18 | 0.71 | 0.12 |
| In-House #1 | RexOmni | GPT | 0.06 | 0.09 | 0.98 | 1.00 | 0.97 |
| In-House #1 | GroundingDINO | Human | 0.04 | 0.08 | 0.87 | 1.00 | 0.82 |
| In-House #1 | MOD (Ours) | 无 | 0.10 | 0.17 | 0.92 | 1.00 | 0.87 |
| In-House #2 | RexOmni | GPT | 0.09 | 0.12 | 0.99 | 1.00 | 0.99 |
| In-House #2 | GroundingDINO | GPT | 0.08 | 0.10 | 0.98 | 1.00 | 0.96 |
| In-House #2 | MOD (Ours) | 无 | 0.15 | 0.19 | 0.95 | 1.00 | 0.91 |
关键指标对比分析¶
| 维度 | MOD (Ours) | 最佳 VLM 基线 | 说明 |
|---|---|---|---|
| mAP₀.₅₋₀.₉₅ (In-House #2) | 0.15 | 0.09 (RexOmni) | MOD 在严格 mAP 上领先 67% |
| Precision (Meccano) | 0.71 | 0.59 (RexOmni) | MOD 预测准确性远超 VLM |
| 需要人工提示 | 否 | 是 | MOD 完全自动化 |
| 训练时间 | 3-4 min | 0 (inference only) | MOD 需要少量训练时间 |
关键发现¶
- MOD 在严格 mAP(IoU 0.5-0.95)上在所有 In-House 数据集上领先所有 VLM 基线——但在 Meccano 上 GroundingDINO(human-prompt)的 mAP 更高(0.19 vs 0.06),因 Meccano 物体更常见
- MOD 的 Precision 显著更高(0.71-1.00),说明错检率极低——对机器人操作来说 Precision 比 Recall 更重要(错抓代价高)
- VLM 基线的 F1 有时更高(如 RexOmni 在 In-House #1 达 0.98),但这是因为 VLM 倾向于检测所有物体(高 Recall),而 MOD 更保守(精度优先)
- GPT-Prompt 对 VLM 的帮助不一致:对 RexOmni 有时反而变差(In-House #1: GPT 0.06 vs Human 0.04 对 mAP),凸显了提示工程的不可靠性
- 端到端管线(视频→数据集→检测器→机器人执行)4-7 分钟完成,验证了实际部署可行性
亮点与洞察¶
- 范式转换:从"语言描述驱动"(Tell)转向"视觉展示驱动"(Show),是新颖物体检测思路的根本性转变。语言在描述特定物体实例时存在天然局限,而视觉呈现能精确传达外观特征
- SODC 时空聚类设计巧妙:先空间 DBSCAN 聚类每帧重叠 box,再用 Jaccard 相似度在时间维度聚合 cluster tracks。纯空间聚类在物体重叠时会失败,时间维度利用运动轨迹差异来解锁正确关联
- 定制化 vs 通用化的务实权衡:不追求通用检测器而为每任务训练小型专用检测器。3-4 分钟训练成本可接受,获得远超通用方法的 Precision
- 端到端机器人可部署:完整系统从演示视频到机器人执行闭环,MOD 检测操作物体 + VLM 检测语义目标的混合策略各取所长
局限与展望¶
- Meccano 数据集上 mAP 仅 0.06(低于 GroundingDINO 的 0.19),SODC 在小型部件和复杂装配场景的数据质量有待提升
- 依赖 HOIST-Former 作为种子检测器——如果手-物交互检测质量差,整个管线会级联失败
- 仅检测人手操作的物体,场景中未被操作但任务相关的物体(如障碍物)无法检测
- 每次新任务需重新训练检测器(3-4 min),涉及大量新颖物体时成本累积
- 实验数据集规模有限(Meccano 19 视频,In-House 54+61 视频),大规模评估缺失
- 未在标准目标检测基准(如 LVIS rare categories)上评估,与 few-shot detection 方法缺少对比
相关工作与启发¶
- vs GroundingDINO/OWL-ViT/RexOmni(开集检测器):依赖语言提示,对新颖物体实例级区分力不足。MOD 通过视觉展示绕过语言瓶颈,Precision 显著更高
- vs 少样本目标检测(FSOD 等):基于 support set 需少量标注样本。MOD 通过 SODC 自动化完全消除标注需求
- vs HOIST-Former(手-物交互检测):HOIST-Former 只检测在手中的物体且逐帧独立。MOD 利用 SODC 将其扩展为全场景检测器——检测不在手中的物体
- vs 行为克隆/模仿学习(RT-2 等):端到端方法将物体检测折叠到模型中但需要机器人上的训练数据。MOD 不需要机器人数据,只需人类演示视频
评分¶
⭐⭐⭐⭐
- 新颖性 ⭐⭐⭐⭐:Show Don't Tell 范式在新颖物体检测中提出清晰的思路转变,SODC 时空聚类设计有创意
- 实验充分度 ⭐⭐⭐:数据集规模有限,缺少标准基准评估,消融实验不够系统
- 写作质量 ⭐⭐⭐⭐:"Show vs Tell" 类比直观有记忆点,SODC 管线讲解清晰
- 价值 ⭐⭐⭐⭐:对机器人快速部署有直接实用价值,降低非专业用户使用门槛
相关论文¶
- [CVPR 2026] Detecting Unknown Objects via Energy-based Separation for Open World Object Detection
- [CVPR 2026] PHAC: Promptable Human Amodal Completion
- [CVPR 2026] NoOVD: Novel Category Discovery and Embedding for Open-Vocabulary Object Detection
- [CVPR 2026] Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods
- [CVPR 2026] FusionAgent: A Multimodal Agent with Dynamic Model Selection for Human Recognition