WeaveTime: 流式视频LLM的帧级逐步记忆¶

会议: CVPR 2026
arXiv: 2602.22142
代码: 项目页
领域: 视频理解 / 多模态VLM
关键词: 流式视频, VideoLLM, 记忆机制, 时间感知, 在线推理

一句话总结¶

诊断出Video-LLM的核心缺陷"时间无感"——把视频当无序图像集处理，产生时序模糊和历史/当前混淆两类失效，提出WeaveTime通过轻量时序重建目标获得顺序感知能力+Past-Current动态焦点缓存实现高效流式推理，在流式基准上一致提升。

背景与动机¶

多模态大语言模型在视觉理解上进步显著，但其二次注意力机制和离线训练范式天然不适合流式场景——帧是逐步到达的，未来帧不可见。更根本的是，现有Video-LLM在训练时将所有帧一次性输入，从未学过"时间顺序"的概念。这导致模型将视频视为一个无序的图像集合。

核心问题¶

Video-LLM存在一个被忽视的根本性缺陷——时间无感（Time-Agnosticism），具体表现为两种失效模式：

1. 时序顺序模糊（Temporal Order Ambiguity）：模型无法跟踪或推理事件的正确时间顺序。问"A发生在B之前还是之后？"时，模型的回答接近随机猜测。

2. 历史-当前焦点混淆（Past-Current Focus Blindness）：模型无法区分当前观察到的帧和之前积累的历史信息。在流式场景中，回答会被无关的历史帧干扰。

这两个问题的根源是：训练时所有帧一次性输入（无时序约束），推理时用固定KV缓存（无区分机制）。

方法详解¶

整体框架¶

WeaveTime是一个简单、高效、模型无关的框架，遵循"先教顺序，再用顺序"的原则。通过轻量微调注入时序感知，再在推理时利用学到的时序表示做高效流式处理。不需要修改Video-LLM的架构。

关键设计¶

1. 流式顺序感知增强（Streaming Order Perception Enhancement） - 设计一个时序重建辅助目标（Temporal Reconstruction Objective） - 随机打乱帧的顺序，让模型预测正确的时间排列 - 这迫使模型在表示中编码帧的时间位置信息 - 轻量微调即可，不需要专门的流式训练数据 - 关键设计：不是加时间戳（那只是数字信号），而是让模型真正学到"顺序"的概念

2. Past-Current动态焦点缓存（Past-Current Dynamic Focus Cache） - 推理时，将KV缓存分为"历史记忆"和"当前观察"两个区域 - 引入不确定性触发的粗到细检索机制： - 默认只关注当前帧的细粒度信息 - 当模型对当前帧的理解产生不确定性时，触发对历史记忆的检索 - 检索采用粗到细策略：先快速定位相关历史段，再细化到具体帧 - 不确定时扩展历史搜索，确定时跳过 → 按需计算

损失函数/训练策略¶

原始LM损失 + 时序重建辅助损失
微调量极小：在现有Video-LLM上只做轻量微调，不改架构
不需要构建专门的流式视频数据集

实验关键数据¶

基准	类型	WeaveTime提升
流式视频QA	时序推理	一致提升
时序顺序判断	顺序感知	显著提升
在线动作理解	流式场景	延迟降低 + 精度提升

消融实验要点¶

时序重建目标是顺序感知能力的核心来源，去掉后时序QA性能大幅下降
动态焦点缓存 vs 固定滑动窗口：动态方案在长视频上优势明显
不确定性触发 vs 每帧都查历史：前者效率高得多且性能不降
模型无关性验证：在多种Video-LLM底座上都有效

亮点 / 我学到了什么¶

"时间无感"这个发现振聋发聩——Video-LLM看视频可能就像看PPT，只看内容不管顺序
通过简单的辅助目标就能注入时序感知，说明能力不是"学不会"而是"没被教"
Past-Current分离 + 不确定性触发检索 = 一个优雅的在线推理框架
"先教顺序再用顺序"的两步范式有普适意义

局限性 / 可改进方向¶

时序重建目标假设帧的时间信息可以从视觉特征恢复——对于静态场景或均匀运动可能困难
不确定性触发机制的阈值如何设定？是否需要校准？
当前只验证了流式视频场景，离线长视频理解是否也能受益？
粗到细历史检索的"粗"级别是什么粒度？对超长视频（小时级）是否足够？

与相关工作的对比¶

vs SlowFast-LLaVA等离线Video-LLM：WeaveTime专攻流式场景，不需要看到未来帧
vs 记忆网络/外部记忆方法（如MemoryTransformer）：WeaveTime不需要额外记忆模块，用KV缓存分区实现
vs VideoLLM-MoD等视频token效率方法：正交且互补——WeaveTime关注时序感知，MoD关注计算效率

与我的研究方向的关联¶

流式视频理解是Video-LLM走向实用的关键场景（实时交互、监控、自动驾驶）
动态焦点缓存的思路可以和视觉token压缩结合：重要帧保留更多token
时序感知能力的缺失可能是视频理解性能的瓶颈之一

评分¶

新颖性: ⭐⭐⭐⭐ — 时间无感的诊断新颖，解决方案简洁但不算革命性
实验充分度: ⭐⭐⭐⭐ — 流式基准验证充分，但缺少离线场景对比
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，两步范式一目了然
对我的价值: ⭐⭐⭐⭐ — 流式视频推理和时序感知对Video-LLM研究有参考价值