AMEGO: Active Memory from Long EGOcentric Videos¶

会议: ECCV 2024
arXiv: 2409.10917
代码: https://gabrielegoletto.github.io/AMEGO/ (有)
领域: 视频理解 / 第一人称视觉
关键词: Egocentric Video, Long Video Understanding, Episodic Memory, Hand-Object Interaction, Structured Representation

一句话总结¶

提出 AMEGO，一种从长第一人称视频中在线构建结构化"活跃记忆"的方法，通过 HOI tracklet + 位置分段 + 语义无关的视觉查询，在新提出的 AMB benchmark 上超越 Video QA baselines 12.7%。

研究背景与动机¶

领域现状：长视频（几十分钟到数小时）的第一人称视频理解是热门方向。现有方法要么均匀采样帧特征（丢失活动结构），要么用 LLM 做 caption+QA（语义绑定、不精细），都无法很好理解真正长视频中的物体交互细节。
现有痛点：
忽略人类活动结构：均匀采样不关注人在哪个位置、何时与物体交互、用哪只手
依赖语义标签：训练编码器需要语义标注的问答对，受固定词汇表限制
缺乏可解释性：隐式特征表示无法直接揭示人的活动内容
无法区分细粒度物体：语义标签（如"杯子"）无法区分不同的杯子实例
核心矛盾：长视频理解需要精细的活动感知（谁在哪用了什么），但现有方法要么太粗糙（均匀采样），要么太依赖语义（固定词汇表）
本文要解决什么？ (a) 构建不依赖语义标签的长视频结构化表示；(b) 支持语义无关的视觉查询
切入角度：模仿人的情景记忆——在线处理视频，只记录物体交互和位置变换，构建轻量的"活跃记忆"
核心 idea 一句话：用 HOI 检测器 + 单目标跟踪器 + DINOv2 特征在线构建手-物体交互 tracklets 和位置分段，形成可查询的语义无关结构化记忆

方法详解¶

整体框架¶

输入长第一人称视频，输出 AMEGO 表示 \(\mathcal{E} = \{\mathcal{O}, \mathcal{L}\}\)：一组 HOI tracklets（物体交互轨迹）和 Location segments（位置段）。在线三步处理：初始化新交互 → 跟踪持续交互 → 终止后匹配物体/位置实例。查询时用视觉特征匹配，语义无关。

关键设计¶

HOI Tracklet 构建（在线三步）:
初始化：用 class-agnostic 手-物体检测器逐帧检测。要求连续 \(s_o\) 帧内有空间重叠的检测才确认为新交互（过滤噪声）
更新/跟踪：初始化后用单目标跟踪器（SOT）持续跟踪物体，即使手离开视野也能保持轨迹。终止条件：连续 \(e_o\) 帧手可见但无关联检测
实例匹配：终止后用 DINOv2 提取物体外观特征，与已有实例做余弦相似度匹配。相似度超阈值则分配已有实例，否则创建新实例
设计动机：HOI 检测器擅长发现新交互但追踪不稳，SOT 追踪稳定但不知何时开始/结束——两者互补
Location Segment 构建:
做什么：识别摄像者在不同"活动热点区域"的时间段
核心思路：用光流低值 + 手检测存在来判断"人停下在做事"；连续 \(s_l\) 帧满足条件则开始位置段，连续 \(e_l\) 帧不满足则结束。用单独的视觉特征提取器 \(\sigma\) 做位置实例匹配
设计动机：位置是理解活动上下文的关键——同一物体在厨房和客厅的使用意义完全不同
语义无关查询:
做什么：给定物体/位置的图片裁剪，检索所有相关交互信息
核心思路：用 DINOv2 提取查询图片特征 → 匹配 AMEGO 中的实例 → 返回所有关联的 tracklets/segments
设计动机：不需要预定义词汇表，可以区分同类不同实例（如两个不同的杯子）——这是语义方法做不到的

损失函数 / 训练策略¶

完全 training-free：所有组件（HOI 检测器、SOT 跟踪器、DINOv2、光流）都是现成的预训练模型
无需任何训练或微调

实验关键数据¶

主实验（AMB Benchmark）¶

方法	类型	总体准确率
SF-QA (obj)	Semantic-free QA	21.2%
S-QA (BLIP-2)	Semantic QA	23.6%
LLoVi (LaViLa+BLIP-2)	LLM pipeline	22.6%
AMEGO - S	结构化表示	33.8%
AMEGO - L	结构化表示	36.3%
随机猜测	-	20.0% (5选1)

→ AMEGO-L 超越最佳 baseline +12.7%（36.3% vs 23.6%）

分项结果¶

排序问题 (Sequencing): AMEGO 大幅领先（~35% vs ~22%）
并发问题 (Concurrency): AMEGO 优势最大（~40% vs ~27%）
时间定位 (Temporal Grounding): AMEGO 在位置相关查询优势明显（~45% vs ~22%）
Q5（同一手的并发物体）: AMEGO 表现最差（24.7%），因为 HOI 检测器难以处理同手同时持有多物体

关键发现¶

所有 VQA baselines 都接近随机：即使是 BLIP-2、LaViLa 等强模型，在这种精细长视频理解上也只比随机好一点点
LLM pipeline（LLoVi）反而更差：文本摘要丢失了太多精细信息
视频越长，Semantic-Free QA 下降越快：但 AMEGO 在长视频上保持优势
AMEGO-L（含位置信息）比 AMEGO-S（仅物体）好 2.5%：位置信息有价值

亮点与洞察¶

"记忆"而非"理解"长视频：不像传统方法试图"理解"视频内容，AMEGO 只"记录"结构化交互事件——更接近人类情景记忆的工作方式
语义无关（Semantic-free）设计：不绑定固定词汇表，用视觉特征匹配而非语义匹配。这使系统能区分同类不同实例，且对新物体零样本泛化
Training-free pipeline：全部使用现成模型，无需任何训练——可复现性和部署便利性极高
HOI 检测 + SOT 跟踪的互补组合：利用 HOI 检测器的"何时开始"信号和 SOT 的稳定跟踪能力，优雅地解决了第一人称视频中物体频繁进出视野的问题

局限性 / 可改进方向¶

Q5 弱点：同一手同时持有多物体时 HOI 检测器识别不好，需要更好的多物体交互检测
位置分段粗糙：仅用光流+手检测来判断，可能误判（如低头看手机=低光流+手可见，但不是在做活动）
只关注手-物体交互：忽略了人的身体姿态、视线方向等其他活动信号
AMB benchmark 规模有限：虽有 20K+ 查询，但仅基于 EPIC-KITCHENS（厨房场景），泛化到其他场景需验证
DINOv2 匹配的阈值敏感：物体/位置的实例匹配依赖手工设定的相似度阈值

评分¶

新颖性: ⭐⭐⭐⭐ 结构化活跃记忆的概念新颖，语义无关设计独特，AMB benchmark 有价值
实验充分度: ⭐⭐⭐⭐ 新 benchmark + 多 baseline 对比 + 视频长度分析 + 定性分析
写作质量: ⭐⭐⭐⭐⭐ 方法图清晰，pipeline 描述详细，动机阐述有说服力
价值: ⭐⭐⭐⭐ 对长视频理解和可穿戴设备（AR/VR、机器人）有直接应用价值