跳转至

AMEGO: Active Memory from Long EGOcentric Videos

会议: ECCV 2024
arXiv: 2409.10917
代码: https://gabrielegoletto.github.io/AMEGO/ (有)
领域: 视频理解 / 第一人称视觉
关键词: Egocentric Video, Long Video Understanding, Episodic Memory, Hand-Object Interaction, Structured Representation

一句话总结

提出 AMEGO,一种从长第一人称视频中在线构建结构化"活跃记忆"的方法,通过 HOI tracklet + 位置分段 + 语义无关的视觉查询,在新提出的 AMB benchmark 上超越 Video QA baselines 12.7%。

研究背景与动机

  1. 领域现状:长视频(几十分钟到数小时)的第一人称视频理解是热门方向。现有方法要么均匀采样帧特征(丢失活动结构),要么用 LLM 做 caption+QA(语义绑定、不精细),都无法很好理解真正长视频中的物体交互细节。

  2. 现有痛点

  3. 忽略人类活动结构:均匀采样不关注人在哪个位置、何时与物体交互、用哪只手
  4. 依赖语义标签:训练编码器需要语义标注的问答对,受固定词汇表限制
  5. 缺乏可解释性:隐式特征表示无法直接揭示人的活动内容
  6. 无法区分细粒度物体:语义标签(如"杯子")无法区分不同的杯子实例

  7. 核心矛盾:长视频理解需要精细的活动感知(谁在哪用了什么),但现有方法要么太粗糙(均匀采样),要么太依赖语义(固定词汇表)

  8. 本文要解决什么? (a) 构建不依赖语义标签的长视频结构化表示;(b) 支持语义无关的视觉查询

  9. 切入角度:模仿人的情景记忆——在线处理视频,只记录物体交互和位置变换,构建轻量的"活跃记忆"

  10. 核心 idea 一句话:用 HOI 检测器 + 单目标跟踪器 + DINOv2 特征在线构建手-物体交互 tracklets 和位置分段,形成可查询的语义无关结构化记忆

方法详解

整体框架

输入长第一人称视频,输出 AMEGO 表示 \(\mathcal{E} = \{\mathcal{O}, \mathcal{L}\}\):一组 HOI tracklets(物体交互轨迹)和 Location segments(位置段)。在线三步处理:初始化新交互 → 跟踪持续交互 → 终止后匹配物体/位置实例。查询时用视觉特征匹配,语义无关。

关键设计

  1. HOI Tracklet 构建(在线三步):
  2. 初始化:用 class-agnostic 手-物体检测器逐帧检测。要求连续 \(s_o\) 帧内有空间重叠的检测才确认为新交互(过滤噪声)
  3. 更新/跟踪:初始化后用单目标跟踪器(SOT)持续跟踪物体,即使手离开视野也能保持轨迹。终止条件:连续 \(e_o\) 帧手可见但无关联检测
  4. 实例匹配:终止后用 DINOv2 提取物体外观特征,与已有实例做余弦相似度匹配。相似度超阈值则分配已有实例,否则创建新实例
  5. 设计动机:HOI 检测器擅长发现新交互但追踪不稳,SOT 追踪稳定但不知何时开始/结束——两者互补

  6. Location Segment 构建:

  7. 做什么:识别摄像者在不同"活动热点区域"的时间段
  8. 核心思路:用光流低值 + 手检测存在来判断"人停下在做事";连续 \(s_l\) 帧满足条件则开始位置段,连续 \(e_l\) 帧不满足则结束。用单独的视觉特征提取器 \(\sigma\) 做位置实例匹配
  9. 设计动机:位置是理解活动上下文的关键——同一物体在厨房和客厅的使用意义完全不同

  10. 语义无关查询:

  11. 做什么:给定物体/位置的图片裁剪,检索所有相关交互信息
  12. 核心思路:用 DINOv2 提取查询图片特征 → 匹配 AMEGO 中的实例 → 返回所有关联的 tracklets/segments
  13. 设计动机:不需要预定义词汇表,可以区分同类不同实例(如两个不同的杯子)——这是语义方法做不到的

损失函数 / 训练策略

  • 完全 training-free:所有组件(HOI 检测器、SOT 跟踪器、DINOv2、光流)都是现成的预训练模型
  • 无需任何训练或微调

实验关键数据

主实验(AMB Benchmark)

方法 类型 总体准确率
SF-QA (obj) Semantic-free QA 21.2%
S-QA (BLIP-2) Semantic QA 23.6%
LLoVi (LaViLa+BLIP-2) LLM pipeline 22.6%
AMEGO - S 结构化表示 33.8%
AMEGO - L 结构化表示 36.3%
随机猜测 - 20.0% (5选1)

→ AMEGO-L 超越最佳 baseline +12.7%(36.3% vs 23.6%)

分项结果

  • 排序问题 (Sequencing): AMEGO 大幅领先(~35% vs ~22%)
  • 并发问题 (Concurrency): AMEGO 优势最大(~40% vs ~27%)
  • 时间定位 (Temporal Grounding): AMEGO 在位置相关查询优势明显(~45% vs ~22%)
  • Q5(同一手的并发物体): AMEGO 表现最差(24.7%),因为 HOI 检测器难以处理同手同时持有多物体

关键发现

  • 所有 VQA baselines 都接近随机:即使是 BLIP-2、LaViLa 等强模型,在这种精细长视频理解上也只比随机好一点点
  • LLM pipeline(LLoVi)反而更差:文本摘要丢失了太多精细信息
  • 视频越长,Semantic-Free QA 下降越快:但 AMEGO 在长视频上保持优势
  • AMEGO-L(含位置信息)比 AMEGO-S(仅物体)好 2.5%:位置信息有价值

亮点与洞察

  • "记忆"而非"理解"长视频:不像传统方法试图"理解"视频内容,AMEGO 只"记录"结构化交互事件——更接近人类情景记忆的工作方式
  • 语义无关(Semantic-free)设计:不绑定固定词汇表,用视觉特征匹配而非语义匹配。这使系统能区分同类不同实例,且对新物体零样本泛化
  • Training-free pipeline:全部使用现成模型,无需任何训练——可复现性和部署便利性极高
  • HOI 检测 + SOT 跟踪的互补组合:利用 HOI 检测器的"何时开始"信号和 SOT 的稳定跟踪能力,优雅地解决了第一人称视频中物体频繁进出视野的问题

局限性 / 可改进方向

  • Q5 弱点:同一手同时持有多物体时 HOI 检测器识别不好,需要更好的多物体交互检测
  • 位置分段粗糙:仅用光流+手检测来判断,可能误判(如低头看手机=低光流+手可见,但不是在做活动)
  • 只关注手-物体交互:忽略了人的身体姿态、视线方向等其他活动信号
  • AMB benchmark 规模有限:虽有 20K+ 查询,但仅基于 EPIC-KITCHENS(厨房场景),泛化到其他场景需验证
  • DINOv2 匹配的阈值敏感:物体/位置的实例匹配依赖手工设定的相似度阈值

相关工作与启发

  • vs ReST Benchmark: ReST 也用视觉查询,但只关注物体不关注位置。AMB 同时考虑物体+位置+交互,更全面
  • vs Semantic-QA (BLIP-2等): 语义方法在细粒度物体区分上受限("杯子"=所有杯子),AMEGO 用实例级视觉匹配解决
  • vs LLoVi: 多阶段 LLM pipeline 在转文字时就丢失了精细视觉信息,反而不如直接的视觉匹配

评分

  • 新颖性: ⭐⭐⭐⭐ 结构化活跃记忆的概念新颖,语义无关设计独特,AMB benchmark 有价值
  • 实验充分度: ⭐⭐⭐⭐ 新 benchmark + 多 baseline 对比 + 视频长度分析 + 定性分析
  • 写作质量: ⭐⭐⭐⭐⭐ 方法图清晰,pipeline 描述详细,动机阐述有说服力
  • 价值: ⭐⭐⭐⭐ 对长视频理解和可穿戴设备(AR/VR、机器人)有直接应用价值