EgoLife: Towards Egocentric Life Assistant¶
会议: CVPR 2025
arXiv: 2503.03803
代码: https://egolife-ai.github.io/ (有项目页)
领域: 视频理解
关键词: 第一人称视觉, 生活助手, 长上下文问答, 多模态大模型, 检索增强生成
一句话总结¶
发布EgoLife数据集(6名参与者共居一周、300小时第一人称多模态视频)和EgoLifeQA基准,提出EgoButler系统(EgoGPT + EgoRAG)探索超长上下文第一人称视觉生活助手的建设路径。
研究背景与动机¶
构建一个能理解用户超长期行为模式和复杂社交互动的AI生活助手,是第一人称视觉的终极目标之一。现有数据集和方法存在重大差距:
- 数据集维度不足:Epic-Kitchen聚焦厨房场景,Ego4D虽然规模大(3670小时)但以单人短片段为主(平均22.8分钟/片段),都缺乏多人社交互动和超长期(天/周级别)的行为记录
- 长上下文能力缺失:现有基准(EgoSchema、EgoPlan-Bench)的最长证据时间不超过2小时,无法评估跨天/跨周的记忆检索和习惯分析能力
- 多模态整合不足:视频+音频+语音转录的联合理解在第一人称场景中至关重要,但现有模型鲜有同时处理视觉和音频的能力
方法详解¶
整体框架¶
EgoLife项目包含三大贡献:(1) EgoLife数据集——6人共居一周、每人每天8小时+的多模态第一人称录制,配合15个第三人称相机和2个毫米波雷达;(2) EgoLifeQA基准——3000个面向生活助手的长上下文QA(实体日志、事件回忆、习惯洞察、人际关系、任务管理五大类型);(3) EgoButler系统——由片段级理解的EgoGPT和长上下文问答的EgoRAG组成。
关键设计¶
-
EgoGPT——第一人称视听语言模型:
- 功能:对30秒视频片段进行多模态(视觉+音频)密集字幕生成和问答
- 核心思路:基于LLaVA-OneVision(7B),增加音频分支——用Whisper Large v3编码音频并训练音频投影模块。构建EgoIT-99K数据集(9个经典第一人称视频数据集、99K QA对、43小时视频)进行微调。为实现个性化,在EgoLife第一天数据上进行额外微调,使模型学习参与者身份
- 设计动机:通用VLM(如GPT-4o、Gemini)缺乏对第一人称视角的特化理解和人物身份识别能力;通过第一人称数据微调+个性化训练可以弥补这一差距
-
EgoRAG——检索增强长上下文问答:
- 功能:回答需要跨天/跨周时间跨度的问题
- 核心思路:构建多层级记忆库 \(M = \{(c_i, d_i, t_i)\}_{i=1}^N\),包含片段特征 \(c_i\)、文本描述 \(d_i\) 和多粒度时间摘要 \(t_i\)(小时级、天级)。问答时先通过高级摘要定位相关时间窗口,再在窗口内用相关性评分 \(s_i = \text{Similarity}(q, c_i) + \lambda \text{Similarity}(q, d_i)\) 检索top-k片段,最后送入LLM生成答案
- 设计动机:任何现有VLM都无法直接处理40+小时的视频;层级检索(日→小时→片段)在保持效率的同时实现对超长内容的推理,类似人类记忆的分层检索机制
-
EgoLifeQA标注流程:
- 功能:高质量的长上下文问答基准
- 核心思路:先用GPT-4o基于视听字幕批量生成约100K候选问题,人工标注员筛选不足1%的高质量问题(要求证据至少在5分钟前),最终每人500道经精心修订的QA,共3000道。五种问题类型覆盖EntityLog(物品追踪)、EventRecall(事件回忆)、HabitInsight(习惯分析)、RelationMap(人际关系)、TaskMaster(任务提醒)
- 设计动机:67%的问题需要超过2小时的上下文回溯,这是现有基准完全无法覆盖的评测维度
损失函数 / 训练策略¶
EgoGPT使用标准的自回归语言建模损失进行微调。训练分两步:(1) 在LibriSpeech上训练音频投影模块对齐音频与语言空间;(2) 在LLaVA-OneVision基础上用EgoIT-99K进行最终阶段微调。个性化版本在EgoLife Day-1数据上追加微调。
实验关键数据¶
主实验(EgoGPT在第一人称基准上的表现)¶
| 模型 | 参数 | EgoSchema | EgoPlan | EgoThink |
|---|---|---|---|---|
| GPT-4o | — | 72.2 | 32.8 | 65.5 |
| Qwen2-VL | 7B | 66.7 | 34.3 | 59.3 |
| LLaVA-OV | 7B | 60.1 | 30.7 | 54.2 |
| EgoGPT (EgoIT) | 7B | 73.2 | 32.4 | 61.7 |
| EgoGPT (+D1) | 7B | 75.4 | 33.4 | 61.4 |
EgoRAG消融(不同证据回溯时间的QA准确率)¶
| 模型 | <2h | 2h-6h | 6h-24h | >24h |
|---|---|---|---|---|
| Gemini-1.5-Pro | 27.9 | 14.8 | 25.0 | 18.4 |
| EgoGPT | 28.2 | 29.1 | 26.8 | 25.0 |
| EgoGPT+EgoRAG | 27.2 | 35.7 | 38.9 | 35.4 |
关键发现¶
- EgoGPT在EgoSchema上达到75.4,超过GPT-4o(72.2),证明第一人称领域数据微调的有效性
- EgoRAG对长上下文问题提升巨大:>24h的问题准确率从25.0提升至35.4(+42%),验证了层级检索策略的必要性
- 字幕质量是决定EgoButler性能的关键瓶颈——人工视听字幕的QA准确率(45.5)远超EgoGPT生成字幕(36.0),提升空间达26%
- 音频-视觉联合理解优于单一模态(33.1 vs 31.2仅视觉、27.2仅音频),但音频单独的贡献有限
- 个性化(Day-1微调)稳定提升各项指标,但存在过拟合风险(Day-1穿蓝衣服的人,后续可能被错认)
亮点与洞察¶
- 数据集开创性:首个周级、多人、多模态、多视角的第一人称生活数据集,填补了超长期行为和社交互动研究的空白
- EgoLifeQA的实际价值:五种问题类型直击生活助手的核心需求——找东西、回忆事件、分析习惯、识别人际关系、提醒任务
- EgoRAG的朴素有效性:简单的层级检索(日→小时→片段)即可显著提升超长上下文QA性能,无需复杂的推理链
- 坦诚的问题分析:论文清晰指出了EgoGPT的三个瓶颈——语音情感理解不足、身份识别过拟合、单次检索无纠错机制
局限与展望¶
- EgoLifeQA目前仅在Jake的500道题上评估,尚未用全部3000道题
- EgoRAG的单次检索机制缺乏多步推理能力,无法处理需要推理链的复杂问题
- 身份识别依赖于Day-1的微调,易受外观变化(换衣服)影响
- 数据集以中文为主,多语言扩展性有待验证
- 当前框架是离线处理,距离实时生活助手还有较大差距
相关工作与启发¶
- Ego4D(3670小时)奠定了第一人称视觉的基础,但EgoLife在多人交互和超长期维度上是全新的探索方向
- EgoExo4D提供了多视角对照,而EgoLife更强调自然日常场景(而非技能展示)
- RAG技术从NLP迁移到视频理解,层级记忆库的设计灵感类似于人类记忆中的情景记忆层级
- 本文提出的"Vision-Audio Caption"流水线(初始标注→GPT合并→GPT enrichment→人工校验)为大规模视频标注提供了可复用范式
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 数据集和benchmark的开创性贡献,填补了超长期第一人称理解的研究空白
- 实验充分度: ⭐⭐⭐ 系统功能验证较充分但评估范围仍有限(仅1/6参与者的QA)
- 写作质量: ⭐⭐⭐⭐ 结构完整、图表丰富,但作为大项目论文信息密度高需耐心阅读
- 价值: ⭐⭐⭐⭐⭐ 数据集+基准+系统的组合贡献将推动整个第一人称AI助手研究领域
相关论文¶
- [CVPR 2025] LION-FS: Fast & Slow Video-Language Thinker as Online Video Assistant
- [NeurIPS 2025] LiveStar: Live Streaming Assistant for Real-World Online Video Understanding
- [CVPR 2025] Object-Shot Enhanced Grounding Network for Egocentric Video
- [CVPR 2025] EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering
- [CVPR 2025] Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input