WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs¶
会议: CVPR 2026
arXiv: 2602.22142
代码: 无(即将开源)
领域: 多模态 / 流式视频理解
关键词: Video-LLM, streaming VQA, temporal order, memory cache, uncertainty-gated retrieval
一句话总结¶
诊断了当前 Video-LLM 存在的"时间不可知"(Time-Agnosticism)问题,提出 WeaveTime 框架,通过训练时的时序重建辅助任务(SOPE)赋予模型时序感知能力,推理时用不确定性门控的粗到细记忆缓存(PCDF-Cache)实现高效自适应记忆检索,在流式视频 QA 上取得显著提升。
研究背景与动机¶
领域现状:现代视觉理解系统越来越多地部署在帧序列实时到达的流式场景中(自动驾驶、人机交互、实时监控等)。基于 Video-LLM 的方法(如 LLaVA-Video、Qwen2-VL)在离线设置中表现优异,但在流式场景下面临根本性挑战。
现有痛点: 1. 当前 Video-LLM 存在 Time-Agnosticism 问题:将视频当作无序证据袋而非因果有序序列处理。实验表明打乱视频帧顺序对模型精度几乎无影响,甚至在某些时序任务上反而提升(人类表现则急剧下降) 2. 现有流式方法(如 StreamBridge、VideoLLM-Online)要么需要大量专用流式数据集和高成本训练,要么依赖定制化记忆机制但效果不佳 3. 压缩式记忆(选择/合并/丢弃视觉特征)会丢失信息;检索式记忆虽保留信息但存在不必要的长程重载和时序焦点丧失
核心矛盾:Video-LLM 缺乏真正的时序理解能力,且现有流式增强方法在"时序感知"和"高效记忆"之间无法兼顾。
本文目标:Time-Agnosticism 导致的两个耦合问题——时序顺序歧义(Temporal Order Ambiguity)和过去-当前焦点盲区(Past-Current Focus Blindness)。
切入角度:先教时序(训练时),再用时序(推理时)—— "first teach order, then use order"。
核心 idea:通过轻量级时序重建辅助任务让模型学会感知帧序,再用不确定性驱动的粗到细检索实现按需回溯。
方法详解¶
整体框架¶
WeaveTime 是一个即插即用、Video-LLM 无关的流式视频 QA 框架,包含两个核心组件: 1. 训练阶段:流式时序感知增强(SOPE)—— 通过时序重建辅助任务赋予模型时序感知 2. 推理阶段:过去-当前动态焦点缓存(PCDF-Cache)—— 不确定性门控 + 粗到细检索
关键设计¶
-
Time-Agnosticism 诊断:
- 核心实验:打乱视频帧顺序后测试模型 vs 人类表现
- 模型在 shuffle 后精度几乎不变,甚至在 Temporal Perception、Action Recognition 等时序任务上有所提升(红色高亮)
- 人类在无时间戳的 shuffle 视频上时序/动作任务精度崩溃(从 1.0 降至 0.0-0.2),提供时间戳后恢复
- 热力图分析揭示模型存在时序位置偏差:短视频倾向关注首尾,长视频偏重开头
- 结论:模型依赖时空捷径和位置偏差而非真正的因果推理
-
流式时序感知增强(SOPE):
- 设计 Temporal Reconstruction (TR) 辅助任务:将视频帧 shuffle 后保留时间戳标记,要求模型先恢复正确时序再回答问题
- 具体操作:对 patch 化的视频 token 序列 \(\mathbf{X} = [\tilde{\mathbf{v}}_{1,1}, \ldots, \tilde{\mathbf{v}}_{1,N_f}, \tilde{\mathbf{v}}_{2,1}, \ldots]\),在每帧前插入时间戳 token \(\mathbf{ts}_i\),然后打乱帧内容
- 在原始 QA prompt 前追加指令:"These video segments are shuffled. List each segment's true time range."
- 利用 LLM 自身的文本重排能力,将时序预测作为 next-token prediction 任务,无需额外模块或损失函数
- 仅使用 30k 条离线视频 IT 数据(来自 LLaVA-Video-178K),LoRA 训练 1 个 epoch,8 GPU 即可
- 效果:将记忆从"无序缓存"升级为"有序状态链",使推理时检索能定位事件发生的时间而非仅关注内容
-
过去-当前动态焦点缓存(PCDF-Cache):
- 核心策略:"先看当下,按需回忆"(Look Now, Recall if Needed)
- 当查询 \(q\) 到达时间 \(t\),模型首先仅从短时窗口 \(\mathcal{M}_{t-1}[-C:]\) 生成答案 \(a_t^{(0)}\)
- 计算预测熵 \(H_t = \text{Entropy}(a_t^{(0)})\),与阈值 \(\delta\) 比较:
- 若 \(H_t < \delta\):直接使用当前答案(无需回溯)
- 若 \(H_t \geq \delta\):触发粗到细检索(C2F Recall)
- 粗到细检索:先用帧级余弦相似度(\(\text{Sim}(f_i^v, f^q)\))筛选 \(\mathcal{M}_{\text{coarse}}\),再用 late-interaction max-sim 精细匹配:\(\text{maxSim}(\{f_{i,k}^v\}, \{f_j^q\}) = \sum_{j=1}^{N_q} \max_{1 \leq k \leq N_i} \langle f_j^q, f_{i,k}^v \rangle\)
- 最终选取 top-\(K\) 帧(限制最多 64 帧),实现 token 级精度但仅付出帧级计算成本
损失函数 / 训练策略¶
- 训练阶段使用标准 next-token prediction 语言建模损失,TR 辅助任务与原始 QA 合并为单轮对话
- 随机采样 30k 条离线视频 IT 数据,LoRA 微调(\(\text{lr}=1 \times 10^{-5}\)),1 个 epoch
- 推理时 entropy 阈值 \(\delta = 0.6\)(通过消融实验确定的最优值)
- 基于 ReKV 代码库实现,最大召回帧数限制为 64
实验关键数据¶
主实验¶
基于 LLaVA-OV-7B 的流式 Multi-Turn 评估:
| 方法 | OVO-Bench Overall | Streaming-Bench Real-Time |
|---|---|---|
| LLaVA-OV-7B + StreamBridge | 61.72 | 68.39 |
| LLaVA-OV-7B + ReKV | 61.72 | 66.15 |
| LLaVA-OV-7B + WeaveTime | 68.82 (+7.10) | 72.13 (+3.74) |
基于 Qwen2-VL-7B 的评估:
| 方法 | OVO-Bench Overall | Streaming-Bench Real-Time |
|---|---|---|
| Qwen2-VL-7B + StreamBridge | 63.35 | 72.01 |
| Qwen2-VL-7B + ReKV | 59.72 | 70.07 |
| Qwen2-VL-7B + WeaveTime | 66.28 | 75.39 |
时序敏感子任务提升尤为显著:ACP +7.56%,EU +9.04%,ACR +11.09%。
消融实验¶
| SOPE w/ TP | SOPE w/ TR | PCDF-Cache | OVO-Bench | Δ | Streaming-Bench | Δ |
|---|---|---|---|---|---|---|
| 53.56 | — | 66.15 | — | |||
| ✔ | 49.88 | -3.68 | 65.91 | -0.54 | ||
| ✔ | ✔ | 55.70 | +5.82 | 68.49 | +2.58 | |
| ✔ | ✔ | ✔ | 57.57 | +1.87 | 72.13 | +3.64 |
检索策略对比(LLaVA-OV-7B):
| 方法 | QAEGO4D Recall↑ | QAEGO4D Acc↑ | MLVU Acc↑ | EventHALL Acc↑ |
|---|---|---|---|---|
| LLaVA-OV | 14.0 | 52.8 | 64.7 | 60.1 |
| + ReKV | 23.9 | 54.3 | 68.5 | 60.6 |
| + C2F (Ours) | 25.2 | 55.2 | 68.9 | 61.4 |
| + Fine-only | OOM | — | — | — |
关键发现¶
- 直接在小规模离线数据上微调(仅 timestamp prompts,无 TR)反而导致流式性能下降(-3.68%),说明分布不匹配
- 加入 Temporal Reconstruction 后在相同数据预算下大幅提升(+5.82%),证明 SOPE 的有效性
- Entropy 阈值 \(\delta\) 的最优值为 0.6:过低导致频繁召回引入干扰,过高导致时序根据不足
- 仅用 30k 离线数据 + 8 GPU 即可达到 StreamForest 使用 121k 流式数据 + 32 GPU 的效果,数据和计算效率极高
- Fine-only 全 token 级检索直接 OOM,验证了 C2F 策略的必要性
亮点与洞察¶
- Time-Agnosticism 的诊断实验非常有说服力——打乱帧序对模型无影响但人类崩溃,清晰揭示了 Video-LLM 的根本缺陷
- "先教时序,再用时序"的两阶段哲学设计优雅:训练时注入时序感知,推理时利用时序感知指导检索
- 不确定性门控的设计很实用:低不确定性就用当前帧回答,高不确定性才回溯历史,避免不必要的计算
- 数据效率极高:不需要专用流式数据,仅从通用离线数据中随机采样 30k 条即可
局限与展望¶
- 仅在 7B 规模模型上验证,未测试更大规模(如 72B)模型的效果
- Entropy 阈值 \(\delta\) 为全局超参数,未考虑任务类型自适应调整
- 时序重建任务假设帧间有明显的时序线索,对静态场景或缓慢变化的视频可能效果有限
- PCDF-Cache 的粗到细检索仍需两阶段计算,对极低延迟场景可能是瓶颈
- 未讨论多轮对话中历史 QA 上下文对当前检索决策的影响
相关工作与启发¶
- StreamBridge:通过流式训练管线增强 Video-LLM,但需要大量流式数据和计算资源
- ReKV:检索式 KV 缓存方法,保留所有视觉记忆但缺乏时序感知
- StreamForest:使用聚类和森林结构管理流式记忆,需要 121k 专用数据 + 32 GPU
- 启发:时序感知可能是所有视频理解任务的基础能力,而非仅流式场景的需求;不确定性驱动的自适应计算分配是一个通用设计模式
评分¶
| 维度 | 评分 |
|---|---|
| 创新性 | ⭐⭐⭐⭐ |
| 实用性 | ⭐⭐⭐⭐⭐ |
| 实验充分度 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 综合 | ⭐⭐⭐⭐ |
相关论文¶
- [CVPR 2026] HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models
- [CVPR 2026] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
- [CVPR 2026] Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration
- [CVPR 2026] Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory
- [CVPR 2026] HiFICL: High-Fidelity In-Context Learning for Multimodal Tasks