WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs¶

会议: CVPR 2026
arXiv: 2602.22142
代码: 无（即将开源）
领域: 多模态 / 流式视频理解
关键词: Video-LLM, streaming VQA, temporal order, memory cache, uncertainty-gated retrieval

一句话总结¶

诊断了当前 Video-LLM 存在的"时间不可知"（Time-Agnosticism）问题，提出 WeaveTime 框架，通过训练时的时序重建辅助任务（SOPE）赋予模型时序感知能力，推理时用不确定性门控的粗到细记忆缓存（PCDF-Cache）实现高效自适应记忆检索，在流式视频 QA 上取得显著提升。

研究背景与动机¶

领域现状：现代视觉理解系统越来越多地部署在帧序列实时到达的流式场景中（自动驾驶、人机交互、实时监控等）。基于 Video-LLM 的方法（如 LLaVA-Video、Qwen2-VL）在离线设置中表现优异，但在流式场景下面临根本性挑战。

现有痛点： 1. 当前 Video-LLM 存在 Time-Agnosticism 问题：将视频当作无序证据袋而非因果有序序列处理。实验表明打乱视频帧顺序对模型精度几乎无影响，甚至在某些时序任务上反而提升（人类表现则急剧下降） 2. 现有流式方法（如 StreamBridge、VideoLLM-Online）要么需要大量专用流式数据集和高成本训练，要么依赖定制化记忆机制但效果不佳 3. 压缩式记忆（选择/合并/丢弃视觉特征）会丢失信息；检索式记忆虽保留信息但存在不必要的长程重载和时序焦点丧失

核心矛盾：Video-LLM 缺乏真正的时序理解能力，且现有流式增强方法在"时序感知"和"高效记忆"之间无法兼顾。

本文目标：Time-Agnosticism 导致的两个耦合问题——时序顺序歧义（Temporal Order Ambiguity）和过去-当前焦点盲区（Past-Current Focus Blindness）。

切入角度：先教时序（训练时），再用时序（推理时）—— "first teach order, then use order"。

核心 idea：通过轻量级时序重建辅助任务让模型学会感知帧序，再用不确定性驱动的粗到细检索实现按需回溯。

方法详解¶

整体框架¶

WeaveTime 是一个即插即用、Video-LLM 无关的流式视频 QA 框架，包含两个核心组件： 1. 训练阶段：流式时序感知增强（SOPE）—— 通过时序重建辅助任务赋予模型时序感知 2. 推理阶段：过去-当前动态焦点缓存（PCDF-Cache）—— 不确定性门控 + 粗到细检索

关键设计¶

Time-Agnosticism 诊断:
- 核心实验：打乱视频帧顺序后测试模型 vs 人类表现
- 模型在 shuffle 后精度几乎不变，甚至在 Temporal Perception、Action Recognition 等时序任务上有所提升（红色高亮）
- 人类在无时间戳的 shuffle 视频上时序/动作任务精度崩溃（从 1.0 降至 0.0-0.2），提供时间戳后恢复
- 热力图分析揭示模型存在时序位置偏差：短视频倾向关注首尾，长视频偏重开头
- 结论：模型依赖时空捷径和位置偏差而非真正的因果推理
流式时序感知增强（SOPE）:
- 设计 Temporal Reconstruction (TR) 辅助任务：将视频帧 shuffle 后保留时间戳标记，要求模型先恢复正确时序再回答问题
- 具体操作：对 patch 化的视频 token 序列 \(\mathbf{X} = [\tilde{\mathbf{v}}_{1,1}, \ldots, \tilde{\mathbf{v}}_{1,N_f}, \tilde{\mathbf{v}}_{2,1}, \ldots]\)，在每帧前插入时间戳 token \(\mathbf{ts}_i\)，然后打乱帧内容
- 在原始 QA prompt 前追加指令："These video segments are shuffled. List each segment's true time range."
- 利用 LLM 自身的文本重排能力，将时序预测作为 next-token prediction 任务，无需额外模块或损失函数
- 仅使用 30k 条离线视频 IT 数据（来自 LLaVA-Video-178K），LoRA 训练 1 个 epoch，8 GPU 即可
- 效果：将记忆从"无序缓存"升级为"有序状态链"，使推理时检索能定位事件发生的时间而非仅关注内容
过去-当前动态焦点缓存（PCDF-Cache）:
- 核心策略："先看当下，按需回忆"（Look Now, Recall if Needed）
- 当查询 \(q\) 到达时间 \(t\)，模型首先仅从短时窗口 \(\mathcal{M}_{t-1}[-C:]\) 生成答案 \(a_t^{(0)}\)
- 计算预测熵 \(H_t = \text{Entropy}(a_t^{(0)})\)，与阈值 \(\delta\) 比较：
- 若 \(H_t < \delta\)：直接使用当前答案（无需回溯）
- 若 \(H_t \geq \delta\)：触发粗到细检索（C2F Recall）
- 粗到细检索：先用帧级余弦相似度（\(\text{Sim}(f_i^v, f^q)\)）筛选 \(\mathcal{M}_{\text{coarse}}\)，再用 late-interaction max-sim 精细匹配：\(\text{maxSim}(\{f_{i,k}^v\}, \{f_j^q\}) = \sum_{j=1}^{N_q} \max_{1 \leq k \leq N_i} \langle f_j^q, f_{i,k}^v \rangle\)
- 最终选取 top-\(K\) 帧（限制最多 64 帧），实现 token 级精度但仅付出帧级计算成本

损失函数 / 训练策略¶

训练阶段使用标准 next-token prediction 语言建模损失，TR 辅助任务与原始 QA 合并为单轮对话
随机采样 30k 条离线视频 IT 数据，LoRA 微调（\(\text{lr}=1 \times 10^{-5}\)），1 个 epoch
推理时 entropy 阈值 \(\delta = 0.6\)（通过消融实验确定的最优值）
基于 ReKV 代码库实现，最大召回帧数限制为 64

实验关键数据¶

主实验¶

基于 LLaVA-OV-7B 的流式 Multi-Turn 评估：

方法	OVO-Bench Overall	Streaming-Bench Real-Time
LLaVA-OV-7B + StreamBridge	61.72	68.39
LLaVA-OV-7B + ReKV	61.72	66.15
LLaVA-OV-7B + WeaveTime	68.82 (+7.10)	72.13 (+3.74)

基于 Qwen2-VL-7B 的评估：

方法	OVO-Bench Overall	Streaming-Bench Real-Time
Qwen2-VL-7B + StreamBridge	63.35	72.01
Qwen2-VL-7B + ReKV	59.72	70.07
Qwen2-VL-7B + WeaveTime	66.28	75.39

时序敏感子任务提升尤为显著：ACP +7.56%，EU +9.04%，ACR +11.09%。

消融实验¶

SOPE w/ TP	SOPE w/ TR	PCDF-Cache	OVO-Bench	Δ	Streaming-Bench	Δ
			53.56	—	66.15	—
✔			49.88	-3.68	65.91	-0.54
✔	✔		55.70	+5.82	68.49	+2.58
✔	✔	✔	57.57	+1.87	72.13	+3.64

检索策略对比（LLaVA-OV-7B）：

方法	QAEGO4D Recall↑	QAEGO4D Acc↑	MLVU Acc↑	EventHALL Acc↑
LLaVA-OV	14.0	52.8	64.7	60.1
+ ReKV	23.9	54.3	68.5	60.6
+ C2F (Ours)	25.2	55.2	68.9	61.4
+ Fine-only	OOM	—	—	—

关键发现¶

直接在小规模离线数据上微调（仅 timestamp prompts，无 TR）反而导致流式性能下降（-3.68%），说明分布不匹配
加入 Temporal Reconstruction 后在相同数据预算下大幅提升（+5.82%），证明 SOPE 的有效性
Entropy 阈值 \(\delta\) 的最优值为 0.6：过低导致频繁召回引入干扰，过高导致时序根据不足
仅用 30k 离线数据 + 8 GPU 即可达到 StreamForest 使用 121k 流式数据 + 32 GPU 的效果，数据和计算效率极高
Fine-only 全 token 级检索直接 OOM，验证了 C2F 策略的必要性

亮点与洞察¶

Time-Agnosticism 的诊断实验非常有说服力——打乱帧序对模型无影响但人类崩溃，清晰揭示了 Video-LLM 的根本缺陷
"先教时序，再用时序"的两阶段哲学设计优雅：训练时注入时序感知，推理时利用时序感知指导检索
不确定性门控的设计很实用：低不确定性就用当前帧回答，高不确定性才回溯历史，避免不必要的计算
数据效率极高：不需要专用流式数据，仅从通用离线数据中随机采样 30k 条即可

局限与展望¶

仅在 7B 规模模型上验证，未测试更大规模（如 72B）模型的效果
Entropy 阈值 \(\delta\) 为全局超参数，未考虑任务类型自适应调整
时序重建任务假设帧间有明显的时序线索，对静态场景或缓慢变化的视频可能效果有限
PCDF-Cache 的粗到细检索仍需两阶段计算，对极低延迟场景可能是瓶颈
未讨论多轮对话中历史 QA 上下文对当前检索决策的影响

评分¶

维度	评分
创新性	⭐⭐⭐⭐
实用性	⭐⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
综合	⭐⭐⭐⭐