StreamingEval: A Unified Evaluation Protocol towards Realistic Streaming Video Understanding¶

日期: 2026-03-23
arXiv: 2603.21493
代码: StreamingEval
领域: 视频理解 / 评测基准
关键词: streaming video, Video-LLM, evaluation framework, latency, memory budget, TTFT

一句话总结¶

提出 StreamingEval，首个统一评测框架同时衡量 Video-LLM 在真实流式约束（有限内存+实时帧率+因果推理）下的准确率、编码效率、解码延迟和存储开销，通过异步三进程流水线模拟真实流式场景，在 12 个代表性模型上揭示当前"在线"模型在严格流式约束下实际不可用。

研究背景与动机¶

领域现状: Video-LLM（VideoChat、LLaVA-Video、Video-ChatGPT 等）在离线视频理解上表现优秀。真实应用（机器人、直播助手、自动驾驶）需要流式处理——持续接收帧、实时响应、有限内存。已有流式基准如 OVO-Bench（时间戳准确率）、StreamingBench（任务覆盖）、VStream-QA（模拟流式查询）。
现有痛点: (i) 评测碎片化，各基准方法不同，结果不可比；(ii) 多数基准用伪流式（pseudo-streaming）——在查询时间截断视频但仍离线处理整段，不反映真实延迟；(iii) 只报准确率，忽略系统级约束（延迟、吞吐量、内存），准确率高但延迟 10 秒的模型在流式场景下无法使用。
核心矛盾: 流式视频理解是系统级问题——准确率 × 延迟 × 内存 × 吞吐量必须联合考量，但现有评测只关注准确率一个维度。不同模型的 visual token embedding 维度不同，按 token 数统一直接对比不公平。
切入角度: 设计标准化异步流式流水线（三个解耦进程并行运行）+ 统一字节级资源预算 + 多维评测指标。
核心 idea: 异步三进程流水线（帧播放→编码/记忆更新→响应生成）+ 统一字节级资源预算 + 四维指标（MaxFPS/TTFT/存储/准确率）+ StreamingScore 综合评分 = 部署导向的流式 Video-LLM 评测。

方法详解¶

StreamingEval 框架（异步三进程）¶

帧播放器 (Frame Player):
- 以固定帧间隔 \(\rho\) 持续发射视频帧 \(\{(v_i, \tau_i)\}\)
- 模拟真实视频流的持续输入
编码/记忆更新器 (Encoder & Memory Updater):
- 每帧到达后立即编码：\(z_i = g_\theta(v_i)\)
- 在线模型：按模型原生更新规则 \(\mathcal{U}\) 更新记忆 \(M_{\tau_i^+} = \mathcal{U}(M_{\tau_i^-}, z_i; B, \pi)\)
- 离线模型：投影后存入固定容量记忆库，FIFO 淘汰
- 关键约束：编码速度必须跟上帧率，否则帧积压
响应生成器 (Responder):
- 查询 \(q_{t_0}\) 到达后，等编码完成（\(t_1\)），读取当前记忆快照 \(M_{t_1}\)
- 自回归生成回答：\(R_{t_1} \sim p_\phi(\cdot | q_{t_0}, C_{t_1}, M_{t_1})\)
- 严格因果：只能用 \(t_1\) 之前已编码的帧

公平对比设置¶

在线模型: 保留原始流式机制和配置（增量编码、记忆更新、检索策略）
离线模型 Adapter: 统一 bounded-memory adapter——视觉特征投影后存入固定容量记忆库，FIFO 淘汰策略，模拟流式约束下的部署版本
统一字节级资源预算: 不按 token 数而按字节量统一——消除不同模型 embedding 维度差异导致的不公平。预算覆盖视觉 token 表示 + 关联 KV cache

评测指标¶

MaxFPS (视觉编码吞吐量): 模型能持续处理而不产生帧积压的最大输入帧率——实时性天花板
TTFT (Time-to-First-Token): 从查询到达到生成第一个回答 token 的延迟——用户体验直接指标
存储: 视觉记忆的字节级开销——资源约束
准确率: 任务性能——在各种 QA 数据集上的正确率
StreamingScore: 综合上述四维指标的统一部署评分

实验关键数据¶

12 个模型评测（在线+离线）¶

核心发现	说明
"在线"模型不可靠	多个声称在线的模型在严格流式约束下无法持续运行（帧积压或内存溢出）
离线 > 在线	相同流式设置下，主流离线模型+记忆 adapter 常优于专门在线模型（但资源消耗更高）
内存-性能 trade-off	扩大记忆容量或提高分辨率可提升准确率，但 TTFT 和内存开销线性增加
MaxFPS 差异大	各模型的实时处理能力差异达数倍——编码效率是关键瓶颈
整体差距大	所有模型与理想流式应用需求之间仍有显著 gap

关键发现¶

当前没有一个模型能在严格流式约束下同时满足高准确率、低延迟、低内存三个条件
"在线"标签不代表真正的流式可用——很多在线模型的 MaxFPS 低于常见视频帧率（30fps），意味着部署时会积压
离线模型 + FIFO 记忆管理竟然常优于专门设计的在线模型——说明现有在线架构的设计仍有较大改进空间
TTFT 是被忽视的关键指标——一些准确率高的模型 TTFT 超过 5 秒，在交互场景（直播问答）中不可接受
统一字节级预算暴露了公平性问题——以前按 token 数对比误导了很多结论

亮点与洞察¶

流式理解是系统问题不是算法问题: 首次从部署角度统一评测准确率-延迟-存储-吞吐量的四维 trade-off
揭穿"在线模型"标签: 系统测试证明很多声称在线的模型在严格约束下无法运行，对社区有重要警示
异步三进程设计: 解耦帧播放/编码/响应，精确模拟真实系统行为——方法论贡献
字节级预算: 解决了 token 维度差异导致的不公平对比问题
研究方向启示: (i) 编码效率是第一瓶颈（MaxFPS）；(ii) 需要更好的记忆管理策略（超越 FIFO）；(iii) TTFT 优化对用户体验关键

局限性 / 可改进方向¶

FIFO 记忆管理是最简单的策略，更智能的策略（聚类压缩、学习式摘要）可能改变排名
仅在 QA 类任务上评测，流式场景还有实时字幕、事件检测等非 QA 任务未覆盖
12 个模型虽有代表性但不全面——特别是缺少最新的 Qwen2.5-VL、InternVL3 等
三进程异步的系统开销本身未量化——评测框架本身的开销是否影响结果
流式场景的多轮对话（连续追问）模式未深入测试

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个部署导向的统一流式 Video-LLM 评测框架
实验充分度: ⭐⭐⭐⭐⭐ 12 个模型，多数据集，四维指标，公平设置完善
写作质量: ⭐⭐⭐⭐⭐ 框架设计严谨，公式化定义清晰，图示直观
价值: ⭐⭐⭐⭐⭐ 对视频理解研究和部署有重要指导，可能成为该领域标准评测