ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting¶

会议: CVPR 2026
arXiv: 2603.23186
代码: https://github.com/MICV-yonsei/ViKey
领域: 视频理解
关键词: 视觉提示, 视频大语言模型, 时序理解, 帧索引, 免训练

一句话总结¶

ViKey 通过在视频帧上叠加帧序号的视觉提示（Visual Prompting），配合轻量的关键词-帧映射（KFM）模块，在免训练条件下显著提升 VideoLLM 的时序推理能力，即使只用 20% 的帧也能接近密集帧的性能。

研究背景与动机¶

VideoLLM 在多模态视频任务上表现优异，但处理密集视频帧的计算开销极高，因此帧选择（frame selection）成为标配手段。然而帧选择在提升效率的同时带来一个严重副作用：打断时序连续性。

现有痛点：当中间帧被移除后，VideoLLM 丧失了推断事件先后关系的能力。例如，一个球员越线后裁判亮红牌的视频，人类从稀疏帧就能推断因果，但 VideoLLM 却可能错误判断裁判踩线。

核心矛盾：帧选择使模型只看到时间轴上离散的"快照"，重建时序连贯的事件序列本身就很困难。现有解决方案如增强时序编码、扩展上下文模块等方法复杂且需要大量训练。

切入角度：视觉提示（VP）已被证明能有效引导模型关注空间区域，但其在跨帧时序推理中的潜力几乎未被探索。作者发现，简单地在每帧上标注序号就能帮助模型感知时序连续性。

方法详解¶

整体框架¶

ViKey 是一个免训练的即插即用框架：输入视频帧 → 叠加帧序号视觉提示 → 提取查询中的关键文本概念 → 通过 KFM 将关键词映射到最相关的帧 → 改写查询加入帧索引 → 送入 VideoLLM 推理。

关键设计¶

序列化视觉提示（Sequential Visual Prompting）:
- 功能：在每帧像素空间中嵌入帧序号信息（如 "frame #01"）
- 核心思路：在帧的左下角（bottom-left）叠加文本形式的帧序号。字体大小自适应帧分辨率：\(fontsize = \min(width, height) / s\)。作者通过三组精心设计的实验验证了 VP 的有效性：(1) 位置编码退化实验证明 VP 可独立恢复帧序信息；(2) 帧级引用实验证明 VP 使模型能像字典一样通过序号查找帧内容；(3) 注意力分析表明 VP 在中高层增强了图像 token 的注意力权重
- 设计动机：放在左下角是因为实验发现存在位置偏差——底部位置准确率远高于顶部（reverse lookup 底部 100% vs 顶部 60-79%），可能因训练数据中字幕/水印常出现在底部
关键词-帧映射（Keyword-Frame Mapping, KFM）:
- 功能：将文本查询中的关键概念锚定到最相关的视频帧
- 核心思路：从用户查询中提取显著关键词，在共享嵌入空间中计算关键词与每帧的相似度，找到最匹配的帧。然后将查询改写为包含帧索引的增强版本，如 "在 frame #03 中，球员做了什么？"。这为推理提供了显式的时序锚点
- 设计动机：VP 提供了帧级索引能力，KFM 则将文本查询与视觉帧建立显式映射，两者结合实现精确的时序定位
位置偏差分析与优化:
- 功能：理解并利用 VideoLLM 对视觉提示位置的偏好
- 核心思路：系统测试了四个角落位置（TL/TR/BL/BR）的 VP 效果。BL 和 BR 在 reverse lookup 中达到 100% 准确率，而 TL 仅约 60%。TL 的主要错误模式是"差一"（off-by-one）——模型把当前帧的序号与下一帧的内容关联
- 设计动机：帧 token 被拼接为单一序列，无显式边界。顶部序号容易与后续帧的 token 混淆，底部序号则与当前帧结尾 token 更自然对齐

损失函数 / 训练策略¶

ViKey 是完全免训练的（training-free），不需要修改模型参数或额外训练。

实验关键数据¶

主实验¶

模型+设置	TempCompass	MVBench	VideoMME	LongVideoBench
LLaVA-Video-7B (64帧)	74.68	82.50	—	56.42
+ ViKey (64帧)	77.83	87.00	提升	58.66
+ ViKey (13帧=20%)	~75	~83	接近64帧	~56

在 TempCompass、MVBench、VideoMME、LongVideoBench 的时序推理子集上一致提升。

消融实验¶

配置	Lookup精度	Reverse Lookup精度	说明
无 VP	12.43%	18.57%	基线极低
VP (bottom-left)	64.62%	100.00%	帧级引用能力显著提升
VP (top-left)	55.56%	60.19%	位置偏差明显
VP + KFM	最优	最优	两者互补

关键发现¶

VP 在位置编码被破坏的极端条件下仍能恢复 2.9-9.9 个百分点的时序理解能力
VP 使注意力中分配给图像 token 的权重平均增加 11.65%，集中在中高层（第4-6层、11-14层、21层之后）
仅 20% 帧 + ViKey 在部分数据集上接近 100% 帧的密集基线，效率极高

亮点与洞察¶

极简但有效：在帧上写个序号就能大幅提升时序推理，这种"不改模型只改输入"的思路既优雅又实用。可以零成本集成到任何 VideoLLM
位置偏差的发现：底部 VP 远优于顶部的发现揭示了 VideoLLM 的训练偏差——模型对底部区域的注意力更强，这一洞察对所有使用 VP 的方法都有指导意义
帧即字典的概念：将帧序号作为键、帧内容作为值的字典隐喻，为 VideoLLM 的细粒度时序控制提供了新范式

局限与展望¶

KFM 模块的关键词提取依赖额外的嵌入模型，在极长视频中可能成为瓶颈
VP 本质上占用了帧的像素空间，对于已有字幕/水印的视频可能产生干扰
位置偏差暗示模型可能只是在"记住"特定位置的文字，而非真正理解时序关系
未来可探索：自适应 VP 大小/位置、与帧选择策略联合优化

评分¶

新颖性: ⭐⭐⭐⭐ 简单但有洞察力的观察，VP 用于时序推理的首次系统探索
实验充分度: ⭐⭐⭐⭐⭐ 三组分析实验+四个基准+多个模型，非常扎实
写作质量: ⭐⭐⭐⭐⭐ 动机分析清晰，实验设计精巧，分析深入
价值: ⭐⭐⭐⭐ 免训练即插即用，实用性很强