V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models¶
日期: 2026-03-17
arXiv: 2603.16581
代码: GitHub
领域: 多模态/VLM
关键词: 时效性知识, 动态基准, 事实验证, 视觉实体识别, 知识过时
一句话总结¶
提出 V-DyKnow,一个动态基准用于评估 VLM 的时效性事实知识——通过 Wikidata 在评估时获取最新事实作为标准答案,发现 VLM 频繁输出过时信息(开源模型仅 3-32% 正确),且视觉输入比文本输入的事实召回显著退化。
研究背景与动机¶
-
领域现状: VLM 被广泛用于回答关于真实世界的事实性问题。现有评估基准使用静态标注的固定答案。
-
现有痛点: 真实世界的事实会随时间变化(如国家领导人更替、公司CEO变动),但现有基准隐式假设事实不变——评估的是模型与"过时信息"的一致性,而非与"当前事实"的一致性。
-
核心矛盾: 模型训练在历史数据快照上,但用户期望获得当前有效的答案。当答案过时时,无法判断是模型"不知道"还是"知道过时的版本"。
-
核心 idea: 构建动态基准,在评估时从 Wikidata 获取最新事实,将模型答案分为三类:正确(当前有效)、过时(历史有效但不再正确)、无关(从未正确)。同时支持视觉和文本两种输入模态的对比评估。
方法详解¶
基准构造¶
- 139 个时效性事实: 47 个国家(领导人/首都等)、28 个运动员、22 个组织(CEO 等)
- 视觉查询: 用实体图像替换文本中的实体名(国旗/国徽、人物肖像、公司Logo)
- 三分类评分: 正确 / 过时 / 无关
- 抗扰动设计: 每个事实用 3 种措辞提问,取 Upper-Bound(最好的一次算数)
评估维度¶
- 跨模态对比: 相同事实用视觉 vs 文本提问,衡量模态差距
- 实体识别解耦: 额外的识别任务——"这是哪个国家/公司?"——区分识别失败 vs 知识缺失
- 知识更新方法评估: 测试知识编辑和多模态 RAG 能否缓解过时问题
- 机制分析: 通过训练数据分析和机制可解释性追溯过时预测的来源
实验关键数据¶
主实验(时效性事实准确率)¶
| 模型 | 视觉提示 正确% | 视觉 过时% | 文本提示 正确% | 文本 过时% |
|---|---|---|---|---|
| GPT-5 | 75 | 15 | 76 | 14 |
| GPT-4 | 71 | 18 | 72 | 19 |
| Qwen2.5-VL | 32 | 38 | 39 | 40 |
| Qwen2-VL | 28 | 38 | 36 | 44 |
| InternVL3.5 | 26 | 21 | 40 | 29 |
| LLaVA-OneVision | 22 | 36 | 31 | 45 |
| PaliGemma 2 | 3 | 4 | 0 | 0 |
核心发现: - 开源 VLM 仅 3-32% 正确,大量回答是过时的(20-38%) - 视觉比文本更差:几乎所有模型的视觉正确率低于文本正确率 - GPT-5 最强但仍有 15% 过时答案 - PaliGemma 2 在视觉上几乎完全失败(93% 无关)
跨模态差距¶
| 发现 | 数据 |
|---|---|
| 视觉→文本退化普遍 | 文本比视觉平均高 5-14pp |
| 实体识别不是唯一原因 | Qwen2-VL 91% 识别准确但仅 28% 事实正确 |
| 识别正确≠知识正确 | 即使正确识别实体,仍可能输出过时知识 |
知识更新方法评估¶
| 方法 | 效果 |
|---|---|
| 知识编辑 (KE) | 仅在简单场景有效,可能干扰预训练知识 |
| 多模态 RAG | 部分改善,但跨模态一致性差 |
亮点与洞察¶
- "识别正确≠知识正确"的关键发现:Qwen2-VL 91% 实体识别准确率但仅 28% 事实正确——说明瓶颈不在视觉识别,而在从识别到知识检索的链路中。这挑战了"VLM 不准是因为看不清"的常见假设。
- 过时知识的普遍性:开源模型中 20-45% 的回答是"过时但历史上正确的"——模型确实学到了这些事实,只是版本不对。这比完全随机的错误更隐蔽、更危险。
- 动态评估范式:用 Wikidata 实时获取标准答案——基准本身不会过时。这种设计理念值得其他事实性基准借鉴。
局限性 / 可改进方向¶
- 规模较小: 139 个事实覆盖面有限,可能不能代表所有类型的时效性知识
- 视觉实体类型有限: 仅国旗/肖像/Logo 三类,不覆盖场景、事件等更复杂的视觉实体
- 未评估最新模型: Qwen3-VL、LLaVA-4D 等 2026 年新模型未包含
相关工作与启发¶
- vs DyKnow: DyKnow 是纯文本 LLM 的动态基准,V-DyKnow 扩展到多模态——增加了视觉-文本跨模态分析
- 启发:对于 daily arxiv 项目也有参考意义——我们追踪的论文信息也是时效性的,需要考虑模型知识的时效性
评分¶
- 新颖性: ⭐⭐⭐⭐ 动态评估+跨模态时效性分析是新颖视角
- 实验充分度: ⭐⭐⭐⭐ 9个模型+知识编辑+RAG+机制分析
- 写作质量: ⭐⭐⭐⭐ 清晰系统
- 价值: ⭐⭐⭐⭐ 对 VLM 事实性评估有重要方法论贡献