跳转至

EgoLife: Towards Egocentric Life Assistant

会议: CVPR 2025
arXiv: 2503.03803
代码: https://egolife-ai.github.io/ (有项目页)
领域: 视频理解
关键词: 第一人称视觉, 生活助手, 长上下文问答, 多模态大模型, 检索增强生成

一句话总结

发布EgoLife数据集(6名参与者共居一周、300小时第一人称多模态视频)和EgoLifeQA基准,提出EgoButler系统(EgoGPT + EgoRAG)探索超长上下文第一人称视觉生活助手的建设路径。

研究背景与动机

构建一个能理解用户超长期行为模式和复杂社交互动的AI生活助手,是第一人称视觉的终极目标之一。现有数据集和方法存在重大差距:

  1. 数据集维度不足:Epic-Kitchen聚焦厨房场景,Ego4D虽然规模大(3670小时)但以单人短片段为主(平均22.8分钟/片段),都缺乏多人社交互动和超长期(天/周级别)的行为记录
  2. 长上下文能力缺失:现有基准(EgoSchema、EgoPlan-Bench)的最长证据时间不超过2小时,无法评估跨天/跨周的记忆检索和习惯分析能力
  3. 多模态整合不足:视频+音频+语音转录的联合理解在第一人称场景中至关重要,但现有模型鲜有同时处理视觉和音频的能力

方法详解

整体框架

EgoLife项目包含三大贡献:(1) EgoLife数据集——6人共居一周、每人每天8小时+的多模态第一人称录制,配合15个第三人称相机和2个毫米波雷达;(2) EgoLifeQA基准——3000个面向生活助手的长上下文QA(实体日志、事件回忆、习惯洞察、人际关系、任务管理五大类型);(3) EgoButler系统——由片段级理解的EgoGPT和长上下文问答的EgoRAG组成。

关键设计

  1. EgoGPT——第一人称视听语言模型:

    • 功能:对30秒视频片段进行多模态(视觉+音频)密集字幕生成和问答
    • 核心思路:基于LLaVA-OneVision(7B),增加音频分支——用Whisper Large v3编码音频并训练音频投影模块。构建EgoIT-99K数据集(9个经典第一人称视频数据集、99K QA对、43小时视频)进行微调。为实现个性化,在EgoLife第一天数据上进行额外微调,使模型学习参与者身份
    • 设计动机:通用VLM(如GPT-4o、Gemini)缺乏对第一人称视角的特化理解和人物身份识别能力;通过第一人称数据微调+个性化训练可以弥补这一差距
  2. EgoRAG——检索增强长上下文问答:

    • 功能:回答需要跨天/跨周时间跨度的问题
    • 核心思路:构建多层级记忆库 \(M = \{(c_i, d_i, t_i)\}_{i=1}^N\),包含片段特征 \(c_i\)、文本描述 \(d_i\) 和多粒度时间摘要 \(t_i\)(小时级、天级)。问答时先通过高级摘要定位相关时间窗口,再在窗口内用相关性评分 \(s_i = \text{Similarity}(q, c_i) + \lambda \text{Similarity}(q, d_i)\) 检索top-k片段,最后送入LLM生成答案
    • 设计动机:任何现有VLM都无法直接处理40+小时的视频;层级检索(日→小时→片段)在保持效率的同时实现对超长内容的推理,类似人类记忆的分层检索机制
  3. EgoLifeQA标注流程:

    • 功能:高质量的长上下文问答基准
    • 核心思路:先用GPT-4o基于视听字幕批量生成约100K候选问题,人工标注员筛选不足1%的高质量问题(要求证据至少在5分钟前),最终每人500道经精心修订的QA,共3000道。五种问题类型覆盖EntityLog(物品追踪)、EventRecall(事件回忆)、HabitInsight(习惯分析)、RelationMap(人际关系)、TaskMaster(任务提醒)
    • 设计动机:67%的问题需要超过2小时的上下文回溯,这是现有基准完全无法覆盖的评测维度

损失函数 / 训练策略

EgoGPT使用标准的自回归语言建模损失进行微调。训练分两步:(1) 在LibriSpeech上训练音频投影模块对齐音频与语言空间;(2) 在LLaVA-OneVision基础上用EgoIT-99K进行最终阶段微调。个性化版本在EgoLife Day-1数据上追加微调。

实验关键数据

主实验(EgoGPT在第一人称基准上的表现)

模型 参数 EgoSchema EgoPlan EgoThink
GPT-4o 72.2 32.8 65.5
Qwen2-VL 7B 66.7 34.3 59.3
LLaVA-OV 7B 60.1 30.7 54.2
EgoGPT (EgoIT) 7B 73.2 32.4 61.7
EgoGPT (+D1) 7B 75.4 33.4 61.4

EgoRAG消融(不同证据回溯时间的QA准确率)

模型 <2h 2h-6h 6h-24h >24h
Gemini-1.5-Pro 27.9 14.8 25.0 18.4
EgoGPT 28.2 29.1 26.8 25.0
EgoGPT+EgoRAG 27.2 35.7 38.9 35.4

关键发现

  • EgoGPT在EgoSchema上达到75.4,超过GPT-4o(72.2),证明第一人称领域数据微调的有效性
  • EgoRAG对长上下文问题提升巨大:>24h的问题准确率从25.0提升至35.4(+42%),验证了层级检索策略的必要性
  • 字幕质量是决定EgoButler性能的关键瓶颈——人工视听字幕的QA准确率(45.5)远超EgoGPT生成字幕(36.0),提升空间达26%
  • 音频-视觉联合理解优于单一模态(33.1 vs 31.2仅视觉、27.2仅音频),但音频单独的贡献有限
  • 个性化(Day-1微调)稳定提升各项指标,但存在过拟合风险(Day-1穿蓝衣服的人,后续可能被错认)

亮点与洞察

  • 数据集开创性:首个周级、多人、多模态、多视角的第一人称生活数据集,填补了超长期行为和社交互动研究的空白
  • EgoLifeQA的实际价值:五种问题类型直击生活助手的核心需求——找东西、回忆事件、分析习惯、识别人际关系、提醒任务
  • EgoRAG的朴素有效性:简单的层级检索(日→小时→片段)即可显著提升超长上下文QA性能,无需复杂的推理链
  • 坦诚的问题分析:论文清晰指出了EgoGPT的三个瓶颈——语音情感理解不足、身份识别过拟合、单次检索无纠错机制

局限与展望

  • EgoLifeQA目前仅在Jake的500道题上评估,尚未用全部3000道题
  • EgoRAG的单次检索机制缺乏多步推理能力,无法处理需要推理链的复杂问题
  • 身份识别依赖于Day-1的微调,易受外观变化(换衣服)影响
  • 数据集以中文为主,多语言扩展性有待验证
  • 当前框架是离线处理,距离实时生活助手还有较大差距

相关工作与启发

  • Ego4D(3670小时)奠定了第一人称视觉的基础,但EgoLife在多人交互和超长期维度上是全新的探索方向
  • EgoExo4D提供了多视角对照,而EgoLife更强调自然日常场景(而非技能展示)
  • RAG技术从NLP迁移到视频理解,层级记忆库的设计灵感类似于人类记忆中的情景记忆层级
  • 本文提出的"Vision-Audio Caption"流水线(初始标注→GPT合并→GPT enrichment→人工校验)为大规模视频标注提供了可复用范式

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 数据集和benchmark的开创性贡献,填补了超长期第一人称理解的研究空白
  • 实验充分度: ⭐⭐⭐ 系统功能验证较充分但评估范围仍有限(仅1/6参与者的QA)
  • 写作质量: ⭐⭐⭐⭐ 结构完整、图表丰富,但作为大项目论文信息密度高需耐心阅读
  • 价值: ⭐⭐⭐⭐⭐ 数据集+基准+系统的组合贡献将推动整个第一人称AI助手研究领域

相关论文