AMEGO: Active Memory from Long EGOcentric Videos¶
会议: ECCV 2024
arXiv: 2409.10917
代码: https://gabrielegoletto.github.io/AMEGO/ (有)
领域: 视频理解 / 第一人称视觉
关键词: Egocentric Video, Long Video Understanding, Episodic Memory, Hand-Object Interaction, Structured Representation
一句话总结¶
提出 AMEGO,一种从长第一人称视频中在线构建结构化"活跃记忆"的方法,通过 HOI tracklet + 位置分段 + 语义无关的视觉查询,在新提出的 AMB benchmark 上超越 Video QA baselines 12.7%。
研究背景与动机¶
-
领域现状:长视频(几十分钟到数小时)的第一人称视频理解是热门方向。现有方法要么均匀采样帧特征(丢失活动结构),要么用 LLM 做 caption+QA(语义绑定、不精细),都无法很好理解真正长视频中的物体交互细节。
-
现有痛点:
- 忽略人类活动结构:均匀采样不关注人在哪个位置、何时与物体交互、用哪只手
- 依赖语义标签:训练编码器需要语义标注的问答对,受固定词汇表限制
- 缺乏可解释性:隐式特征表示无法直接揭示人的活动内容
-
无法区分细粒度物体:语义标签(如"杯子")无法区分不同的杯子实例
-
核心矛盾:长视频理解需要精细的活动感知(谁在哪用了什么),但现有方法要么太粗糙(均匀采样),要么太依赖语义(固定词汇表)
-
本文要解决什么? (a) 构建不依赖语义标签的长视频结构化表示;(b) 支持语义无关的视觉查询
-
切入角度:模仿人的情景记忆——在线处理视频,只记录物体交互和位置变换,构建轻量的"活跃记忆"
-
核心 idea 一句话:用 HOI 检测器 + 单目标跟踪器 + DINOv2 特征在线构建手-物体交互 tracklets 和位置分段,形成可查询的语义无关结构化记忆
方法详解¶
整体框架¶
输入长第一人称视频,输出 AMEGO 表示 \(\mathcal{E} = \{\mathcal{O}, \mathcal{L}\}\):一组 HOI tracklets(物体交互轨迹)和 Location segments(位置段)。在线三步处理:初始化新交互 → 跟踪持续交互 → 终止后匹配物体/位置实例。查询时用视觉特征匹配,语义无关。
关键设计¶
- HOI Tracklet 构建(在线三步):
- 初始化:用 class-agnostic 手-物体检测器逐帧检测。要求连续 \(s_o\) 帧内有空间重叠的检测才确认为新交互(过滤噪声)
- 更新/跟踪:初始化后用单目标跟踪器(SOT)持续跟踪物体,即使手离开视野也能保持轨迹。终止条件:连续 \(e_o\) 帧手可见但无关联检测
- 实例匹配:终止后用 DINOv2 提取物体外观特征,与已有实例做余弦相似度匹配。相似度超阈值则分配已有实例,否则创建新实例
-
设计动机:HOI 检测器擅长发现新交互但追踪不稳,SOT 追踪稳定但不知何时开始/结束——两者互补
-
Location Segment 构建:
- 做什么:识别摄像者在不同"活动热点区域"的时间段
- 核心思路:用光流低值 + 手检测存在来判断"人停下在做事";连续 \(s_l\) 帧满足条件则开始位置段,连续 \(e_l\) 帧不满足则结束。用单独的视觉特征提取器 \(\sigma\) 做位置实例匹配
-
设计动机:位置是理解活动上下文的关键——同一物体在厨房和客厅的使用意义完全不同
-
语义无关查询:
- 做什么:给定物体/位置的图片裁剪,检索所有相关交互信息
- 核心思路:用 DINOv2 提取查询图片特征 → 匹配 AMEGO 中的实例 → 返回所有关联的 tracklets/segments
- 设计动机:不需要预定义词汇表,可以区分同类不同实例(如两个不同的杯子)——这是语义方法做不到的
损失函数 / 训练策略¶
- 完全 training-free:所有组件(HOI 检测器、SOT 跟踪器、DINOv2、光流)都是现成的预训练模型
- 无需任何训练或微调
实验关键数据¶
主实验(AMB Benchmark)¶
| 方法 | 类型 | 总体准确率 |
|---|---|---|
| SF-QA (obj) | Semantic-free QA | 21.2% |
| S-QA (BLIP-2) | Semantic QA | 23.6% |
| LLoVi (LaViLa+BLIP-2) | LLM pipeline | 22.6% |
| AMEGO - S | 结构化表示 | 33.8% |
| AMEGO - L | 结构化表示 | 36.3% |
| 随机猜测 | - | 20.0% (5选1) |
→ AMEGO-L 超越最佳 baseline +12.7%(36.3% vs 23.6%)
分项结果¶
- 排序问题 (Sequencing): AMEGO 大幅领先(~35% vs ~22%)
- 并发问题 (Concurrency): AMEGO 优势最大(~40% vs ~27%)
- 时间定位 (Temporal Grounding): AMEGO 在位置相关查询优势明显(~45% vs ~22%)
- Q5(同一手的并发物体): AMEGO 表现最差(24.7%),因为 HOI 检测器难以处理同手同时持有多物体
关键发现¶
- 所有 VQA baselines 都接近随机:即使是 BLIP-2、LaViLa 等强模型,在这种精细长视频理解上也只比随机好一点点
- LLM pipeline(LLoVi)反而更差:文本摘要丢失了太多精细信息
- 视频越长,Semantic-Free QA 下降越快:但 AMEGO 在长视频上保持优势
- AMEGO-L(含位置信息)比 AMEGO-S(仅物体)好 2.5%:位置信息有价值
亮点与洞察¶
- "记忆"而非"理解"长视频:不像传统方法试图"理解"视频内容,AMEGO 只"记录"结构化交互事件——更接近人类情景记忆的工作方式
- 语义无关(Semantic-free)设计:不绑定固定词汇表,用视觉特征匹配而非语义匹配。这使系统能区分同类不同实例,且对新物体零样本泛化
- Training-free pipeline:全部使用现成模型,无需任何训练——可复现性和部署便利性极高
- HOI 检测 + SOT 跟踪的互补组合:利用 HOI 检测器的"何时开始"信号和 SOT 的稳定跟踪能力,优雅地解决了第一人称视频中物体频繁进出视野的问题
局限性 / 可改进方向¶
- Q5 弱点:同一手同时持有多物体时 HOI 检测器识别不好,需要更好的多物体交互检测
- 位置分段粗糙:仅用光流+手检测来判断,可能误判(如低头看手机=低光流+手可见,但不是在做活动)
- 只关注手-物体交互:忽略了人的身体姿态、视线方向等其他活动信号
- AMB benchmark 规模有限:虽有 20K+ 查询,但仅基于 EPIC-KITCHENS(厨房场景),泛化到其他场景需验证
- DINOv2 匹配的阈值敏感:物体/位置的实例匹配依赖手工设定的相似度阈值
相关工作与启发¶
- vs ReST Benchmark: ReST 也用视觉查询,但只关注物体不关注位置。AMB 同时考虑物体+位置+交互,更全面
- vs Semantic-QA (BLIP-2等): 语义方法在细粒度物体区分上受限("杯子"=所有杯子),AMEGO 用实例级视觉匹配解决
- vs LLoVi: 多阶段 LLM pipeline 在转文字时就丢失了精细视觉信息,反而不如直接的视觉匹配
评分¶
- 新颖性: ⭐⭐⭐⭐ 结构化活跃记忆的概念新颖,语义无关设计独特,AMB benchmark 有价值
- 实验充分度: ⭐⭐⭐⭐ 新 benchmark + 多 baseline 对比 + 视频长度分析 + 定性分析
- 写作质量: ⭐⭐⭐⭐⭐ 方法图清晰,pipeline 描述详细,动机阐述有说服力
- 价值: ⭐⭐⭐⭐ 对长视频理解和可穿戴设备(AR/VR、机器人)有直接应用价值