V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models¶

日期: 2026-03-17
arXiv: 2603.16581
代码: GitHub
领域: 多模态/VLM
关键词: 时效性知识, 动态基准, 事实验证, 视觉实体识别, 知识过时

一句话总结¶

提出 V-DyKnow，一个动态基准用于评估 VLM 的时效性事实知识——通过 Wikidata 在评估时获取最新事实作为标准答案，发现 VLM 频繁输出过时信息（开源模型仅 3-32% 正确），且视觉输入比文本输入的事实召回显著退化。

领域现状: VLM 被广泛用于回答关于真实世界的事实性问题。现有评估基准使用静态标注的固定答案。
现有痛点: 真实世界的事实会随时间变化（如国家领导人更替、公司CEO变动），但现有基准隐式假设事实不变——评估的是模型与"过时信息"的一致性，而非与"当前事实"的一致性。
核心矛盾: 模型训练在历史数据快照上，但用户期望获得当前有效的答案。当答案过时时，无法判断是模型"不知道"还是"知道过时的版本"。
核心 idea: 构建动态基准，在评估时从 Wikidata 获取最新事实，将模型答案分为三类：正确（当前有效）、过时（历史有效但不再正确）、无关（从未正确）。同时支持视觉和文本两种输入模态的对比评估。

模型	视觉提示正确%	视觉过时%	文本提示正确%	文本过时%
GPT-5	75	15	76	14
GPT-4	71	18	72	19
Qwen2.5-VL	32	38	39	40
Qwen2-VL	28	38	36	44
InternVL3.5	26	21	40	29
LLaVA-OneVision	22	36	31	45
PaliGemma 2	3	4	0	0

核心发现： - 开源 VLM 仅 3-32% 正确，大量回答是过时的（20-38%） - 视觉比文本更差：几乎所有模型的视觉正确率低于文本正确率 - GPT-5 最强但仍有 15% 过时答案 - PaliGemma 2 在视觉上几乎完全失败（93% 无关）

方法	效果
知识编辑 (KE)	仅在简单场景有效，可能干扰预训练知识
多模态 RAG	部分改善，但跨模态一致性差

"识别正确≠知识正确"的关键发现：Qwen2-VL 91% 实体识别准确率但仅 28% 事实正确——说明瓶颈不在视觉识别，而在从识别到知识检索的链路中。这挑战了"VLM 不准是因为看不清"的常见假设。
过时知识的普遍性：开源模型中 20-45% 的回答是"过时但历史上正确的"——模型确实学到了这些事实，只是版本不对。这比完全随机的错误更隐蔽、更危险。
动态评估范式：用 Wikidata 实时获取标准答案——基准本身不会过时。这种设计理念值得其他事实性基准借鉴。