Eyes Wide Open: Ego Proactive Video-LLM for Streaming Video¶
会议: NeurIPS 2025
arXiv: 2510.14560
代码: https://zhangyl4.github.io/publications/eyes-wide-open/
领域: 视频理解 / 流式处理 / 第一视角
关键词: streaming video, proactive response, ego-centric, just-in-time, dynamic compression, ESTP-Bench
作者: Yulin Zhang (ShanghaiTech), Cheng Shi (HKU), Yang Wang (ShanghaiTech), Sibei Yang† (SYSU)
一句话总结¶
定义"第一视角流式视频主动理解"新任务——给定ego-streaming视频,AI助手在恰当时机主动回答多样化、随事件演变的问题,同时保持感知与推理的同步。提出ESTP-Bench评估框架、ESTP-F1指标,以及含数据引擎、多阶段训练和主动动态压缩的完整技术pipeline(VideoLLM-EyeWO),在ESTP-Bench上比最强baseline MiniCPM-V高11.8%。
背景与动机¶
现有Video-LLM处于被动响应模式——用户问了才答,且通常处理预录制的完整视频(离线)。但真实场景下的AI助手(智能穿戴设备、自动驾驶copilot等)需要处理实时流式视频并主动地在关键时刻提供信息。这一新任务需要三个关键属性:
- Proactive Coherence(主动一致性):处理多样化问题,即使答案依赖未来视频帧也能主动响应,并在相关问题间维持上下文一致性。例如对话中绿色段落在语义上依赖紫色段落的内容,需要跨时间整合过去与当前信息
- Just-in-Time Responsiveness(即时响应):基于视觉就绪度判断何时作答——太早证据不足会出错,太晚则错过帮助时机;不确定时应保持沉默,避免不必要的重复
- Synchronized Efficiency(同步效率):回答与视觉感知同步进行,不能因回答而错过新的视觉输入;随帧数增长需保持时间和内存效率
现有评估框架(StreamingBench、OVO-Bench等)无法统一评估这三者。多数在线benchmark问题类型单一、缺乏上下文连续性,几乎不评估即时响应性或同步效率。
核心问题¶
如何让Video-LLM从被动的"问了才答+离线处理"升级为主动的"自主判断何时响应+实时流式处理",并同时满足主动一致性、即时响应和同步效率三个约束?
方法详解¶
1. ESTP-Bench 与 ESTP-F1 指标¶
基于Ego4D验证集构建benchmark,包含890个视频、100+种场景、2264个经人工验证的QA实例,涵盖14种任务类型(物体识别、属性感知、动作识别、意图预测等)。问题分为三种主动类型: - 显式(Explicit):8种任务,直接利用视觉信息回答(OR/AP/TRU/OL/OSC/EOL/EOSC/AR) - 隐式(Implicit):4种任务,需推理超越直接观察(OFR/IFR/NAR/TU) - 上下文(Contextual):2种任务,需跨时间维持对话一致性(ORC/TRC)
每个问题标注了平均3.96个有效回答时间区间,46%的问题有上下文关联。ESTP-F1 综合衡量三个维度: - 回答质量:用LLM评估预测内容与GT的正确度 \(\mathcal{S}_{\text{answer}}\) - 响应时机:通过 \(\mathcal{S}_{\text{time}}\) 衡量时效性,FN惩罚漏答 - 时间精度:通过FP惩罚误报
2. 数据引擎(ESTP-Gen)¶
利用Ego4D训练集自动生成60K单轮和20K多轮训练数据,三阶段pipeline: - One-to-One:用LVLM生成字幕并提取初始QA对(单一时间区间) - One-to-Many:通过RAG将每个答案扩展到多个有效时间区间 - Many-to-Many:将相关QA对组合为连贯的多轮问答
3. 多阶段训练策略¶
基于LLaMA3 + SigLIP架构,使用LoRA训练,渐进式赋予模型三层能力:
Stage-1:被动区间响应
在有效回答区间内施加加权监督(而非简单二分类),使用线性衰减函数 \(f\) 作为权重,按时间点距区间终点的距离调节监督强度,解决相邻帧高度相似导致的训练冲突
Stage-2:主动即时响应与精准回答
引入第三种动作 \(a_{\text{ask\_high}}\)——在不确定时刻主动请求高分辨率帧。模型先学会何时请求高分辨率(\(\mathcal{L}_{\text{ask\_high}}\)),再基于高分辨率信息判断是否是正确响应时刻并给出精准回答(\(\mathcal{L}_{\text{determine}}\)),总损失为两者之和
Stage-3:多轮QA一致性
仅在多轮问答数据上训练,在保持即时响应能力的同时提升上下文理解和跨轮次一致性
4. 主动动态压缩机制¶
为保证内存效率,提出两层压缩策略: - 两级压缩:模型主动决定压缩时机和压缩等级——当预期可能需要响应时,主动请求高分辨率输入(低压缩);否则对历史内容施加高压缩率;响应完成后将其之前的内容进一步压缩 - 统一压缩方法:在输入段之后插入特殊压缩token ⟨ct⟩(用EOS embedding初始化),利用causal attention机制将前序信息压缩到KV cache的紧凑表示中。平均token使用量仅为原始序列的约1/10
实验关键数据¶
ESTP-Bench主表¶
| 模型 | Overall ESTP-F1 |
|---|---|
| LIVE (th=0.9) | 15.5 |
| MMDuet | 17.8 |
| MiniCPM-V (Polling) | 22.9 |
| Qwen2-VL (Polling) | 21.3 |
| VideoLLM-EyeWO | 34.7 |
- 比基线LIVE提升 +19.2%,比最强Polling模型MiniCPM-V提升 +11.8%
- 在显式任务上23.6 vs 基线9.5,隐式任务52.5 vs 25.6,上下文任务43.6 vs 20.3
消融实验¶
- ESTP-IT数据为LIVE基线带来+7.1/+6.8的提升(单轮/上下文)
- Stage-1渐进式训练解决二分类训练冲突,无需人工阈值调优
- 主动动态压缩将KV cache消耗降至基线的约 0.11%(9636→942 token)
- Stage-2(多轮一致性)在上下文任务上进一步+4.9
其他benchmark¶
- OVO-Bench zero-shot:32.76 vs VideoLLM-online的20.79(+57.6%)
- COIN benchmark Top-1准确率:66.0 vs 63.4(+2.6%),验证架构泛化性
亮点¶
- "主动式流式视频理解"是范式级新任务定义——被动→主动、离线→流式的转换
- 三个关键属性的形式化(Proactive Coherence / Just-in-Time / Sync Efficiency)及其"不可能三角"分析
- ESTP-Bench是首个全面评估流式主动理解的benchmark——14种任务、3种主动类型、精确时间区间标注
- 主动请求高分辨率帧是核心创新——模型自主决定何时需要更细粒度的视觉信息
- 动态压缩将KV cache压至基线的0.11%,使长视频流处理成为现实
- 从任务定义、数据构建、训练策略到推理优化的完整技术栈
局限性 / 可改进方向¶
- Recall-Precision存在明显负相关,主动响应时机判断仍会产生误报
- NAR/TU任务因有效区间占比大而分数虚高,指标可能需要归一化
- 第一视角数据收集和精确时间标注成本很高
- 当前仅在Ego4D上验证,泛化到其他domain(如自动驾驶、安防)待探索
- 同步效率方面,APS(Actions Per Second)与性能仍存在tradeoff
与相关工作的对比¶
- vs. LIVE/VideoLLM-Online:共享LLaMA3+SigLIP架构和Ego4D数据源,但LIVE使用简单二分类监督且无主动高分辨率请求机制;EyeWO通过多阶段训练和动态压缩大幅超越
- vs. MMDuet:MMDuet追求高recall但precision极低(过度响应),EyeWO在两者间取得更好平衡
- vs. 离线MLLM(Qwen2-VL/MiniCPM-V等):离线模型用Polling策略可达到一定性能,但无法实现真正的实时同步;Response-in-Last策略下性能显著下降,暴露时间定位能力弱
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 主动式流式视频理解是范式级新任务定义
- 实验充分度: ⭐⭐⭐⭐⭐ 新benchmark+新指标+多baseline对比+充分消融+跨benchmark验证
- 写作质量: ⭐⭐⭐⭐ 三属性形式化清晰,不可能三角分析有洞察力
- 价值: ⭐⭐⭐⭐⭐ 定义了Video-LLM的重要新方向,完整技术栈可落地