跳转至

Show, Don't Tell: Detecting Novel Objects by Watching Human Videos

会议: CVPR 2025
arXiv: 2603.12751
代码: 无
领域: 目标检测 / 机器人
关键词: 新物体检测, 人类演示视频, 自监督学习, 机器人操作, 开放集检测

一句话总结

本文提出"Show, Don't Tell"范式,通过观看人类操作演示视频自动创建训练数据集,训练专属的物体检测器来识别新颖物体,完全绕过了传统方法中依赖语言描述或 prompt 工程的环节,在真实机器人系统上显著提升了操作物体的检测和识别性能。

研究背景与动机

领域现状:机器人需要在任务执行过程中快速识别和检测新物体。当前主流方法依赖封闭集物体检测器(如预训练的目标检测模型),但这些检测器面对分布外(out-of-distribution)的物体时经常失败。开放集检测器(如 VLM)虽然有时能成功,但需要昂贵且繁琐的人工 prompt 工程来唯一识别新物体实例。

现有痛点:封闭集检测器无法泛化到未见过的物体;开放集检测器虽有一定灵活性,但面临两大问题:(1) 需要人类提供精确的语言描述来区分物体实例,这一过程耗时且容易出错;(2) 语言描述本身存在歧义性,难以精确指代特定物体。

核心矛盾:语言作为物体识别的中间媒介存在根本局限——对于外观复杂或难以用语言精确描述的物体,文本描述很难捕捉所有视觉细节来唯一标识它们。

本文目标:(1) 消除对语言描述和 prompt 工程的依赖;(2) 利用人类演示视频自动生成训练数据;(3) 快速训练针对特定任务物体的专属检测器。

切入角度:作者观察到人类演示视频本身就包含了需要操作的物体的丰富视觉信息。与其用语言"告诉"检测器要找什么(Tell),不如直接用视频"展示"给它看(Show)。

核心 idea:用人类演示视频自动创建带标注的训练数据集,绕过语言描述直接训练针对任务相关物体的专属检测器,实现"展示而非告诉"的新范式。

方法详解

整体框架

系统的整体流程为:输入一段人类任务演示视频 → 自动从视频中提取并标注被操作物体的区域 → 用这些自动生成的标注数据训练一个专属物体检测器 → 在真实机器人上部署该检测器进行物体识别和任务执行。

关键设计

  1. 自动数据集创建模块:

    • 功能:从人类演示视频中自动提取和标注物体实例
    • 核心思路:利用视频中的运动信息和视觉线索自动识别人手操作的物体区域。通过跟踪手部动作和物体交互,提取物体在不同视角、光照条件下的多样化视觉样本,自动生成边界框标注。这种方式能覆盖物体的多个视角和姿态变化,提供丰富的正样本
    • 设计动机:人类演示视频天然包含物体被抓取、移动、放置的完整过程,这些帧本身就构成了一个高质量的物体外观数据集,无需额外标注工作
  2. 专属物体检测器训练:

    • 功能:利用自动创建的数据集快速训练一个针对任务物体的检测模型
    • 核心思路:以自动生成的标注数据为监督信号,训练或微调一个轻量级检测网络。训练目标是让检测器学会区分演示中出现的特定物体实例。通过限定检测范围为任务相关物体,检测器可以快速收敛且准确率高
    • 设计动机:与通用开放集检测器不同,专属检测器只需识别有限数量的特定物体,因此可以用很少的数据和计算量达到很高的精度
  3. 机器人端到端部署系统:

    • 功能:将训练好的检测器集成到机器人系统中实现闭环任务执行
    • 核心思路:将专属检测器作为机器人感知模块的核心,实时检测工作空间中的任务相关物体,为后续抓取规划和操作提供准确的物体定位信息
    • 设计动机:端到端的系统集成确保从演示到部署的高效流转,减少人工干预环节

损失函数 / 训练策略

采用标准目标检测损失进行训练,包括分类损失和边界框回归损失。由于训练数据由演示视频自动生成,整个训练过程完全自监督,无需人工标注。

实验关键数据

主实验

方法 物体检测 mAP 物体识别准确率 任务完成率
封闭集检测器 较低 较低 较低
VLM + Prompt 中等 中等 中等
Show Don't Tell (Ours) 显著最高 显著最高 显著最高

消融实验

配置 检测性能 说明
Full pipeline 最优 完整自监督训练流程
w/o 自动数据增强 下降明显 数据多样性对泛化重要
w/o 多视角采样 下降 多视角覆盖提升鲁棒性
仅用少量帧 有所下降 更多帧提供更好覆盖

关键发现

  • 完全绕过语言描述的方法在检测和识别新物体上显著优于依赖 prompt 的方法,验证了"展示优于告诉"的核心假设
  • 自动生成的数据集质量足以训练出高精度的专属检测器
  • 系统在真实机器人任务中带来了操作成功率的实质性提升

亮点与洞察

  • 绕过语言的范式创新:完全避开了语言描述的瓶颈,直接用视觉信息建立物体表征,这在人机交互和机器人学习中开辟了新思路
  • 自监督的数据飞轮:演示视频本身就是标注数据源,这种"用数据生成数据"的策略极其高效,可以推广到更广泛的少样本学习场景
  • 实用的工程价值:端到端集成到真实机器人系统,验证了方法的实用性,不仅是学术贡献也具有工业应用价值

局限与展望

  • 依赖人类演示视频的质量——如果演示中物体遮挡严重或运动模糊,自动标注质量可能下降
  • 当前主要针对操作类物体,对背景中静态物体的检测能力有待验证
  • 未探讨物体类别动态增长的场景——当新任务引入更多物体时,可能需要重新训练
  • 可以考虑结合少量语言提示作为补充,形成"Show + Tell"的混合模式
  • 将方法扩展到更复杂的多物体交互场景也是重要方向

相关工作与启发

  • vs OWL-ViT/Grounding DINO: 这些开放集检测器依赖文本 prompt 来指定目标,本文完全绕过了语言环节,在特定物体实例识别上更精确
  • vs Few-shot Object Detection: 传统 few-shot 检测需要人工提供参考图像,本文从演示视频中自动提取,工作流更自然
  • vs Visual Prompting: 视觉 prompting 方法(如 SAM)需要用户标注点或框,本文从视频中自动提取这些信息
  • 这篇工作启发了一种更通用的思路:利用人类行为数据(不仅是视频,还有触觉/力反馈)自动标注训练数据

评分

  • 新颖性: ⭐⭐⭐⭐ 范式创新——"展示而非告诉"是一个清晰且有说服力的新方向
  • 实验充分度: ⭐⭐⭐⭐ 在真实机器人系統上验证,但开放数据集对比可更丰富
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,"Show Don't Tell"的主题贯穿始终
  • 价值: ⭐⭐⭐⭐ 对机器人操作和物体检测社区有直接的应用价值

相关论文