跳转至

V-DyKnow: A Dynamic Benchmark for Time-Sensitive Knowledge in Vision Language Models

日期: 2026-03-17
arXiv: 2603.16581
代码: GitHub
领域: 多模态/VLM
关键词: 时效性知识, 动态基准, 事实验证, 视觉实体识别, 知识过时

一句话总结

提出 V-DyKnow,一个动态基准用于评估 VLM 的时效性事实知识——通过 Wikidata 在评估时获取最新事实作为标准答案,发现 VLM 频繁输出过时信息(开源模型仅 3-32% 正确),且视觉输入比文本输入的事实召回显著退化。

研究背景与动机

  1. 领域现状: VLM 被广泛用于回答关于真实世界的事实性问题。现有评估基准使用静态标注的固定答案。

  2. 现有痛点: 真实世界的事实会随时间变化(如国家领导人更替、公司CEO变动),但现有基准隐式假设事实不变——评估的是模型与"过时信息"的一致性,而非与"当前事实"的一致性。

  3. 核心矛盾: 模型训练在历史数据快照上,但用户期望获得当前有效的答案。当答案过时时,无法判断是模型"不知道"还是"知道过时的版本"。

  4. 核心 idea: 构建动态基准,在评估时从 Wikidata 获取最新事实,将模型答案分为三类:正确(当前有效)、过时(历史有效但不再正确)、无关(从未正确)。同时支持视觉和文本两种输入模态的对比评估。

方法详解

基准构造

  • 139 个时效性事实: 47 个国家(领导人/首都等)、28 个运动员、22 个组织(CEO 等)
  • 视觉查询: 用实体图像替换文本中的实体名(国旗/国徽、人物肖像、公司Logo)
  • 三分类评分: 正确 / 过时 / 无关
  • 抗扰动设计: 每个事实用 3 种措辞提问,取 Upper-Bound(最好的一次算数)

评估维度

  1. 跨模态对比: 相同事实用视觉 vs 文本提问,衡量模态差距
  2. 实体识别解耦: 额外的识别任务——"这是哪个国家/公司?"——区分识别失败 vs 知识缺失
  3. 知识更新方法评估: 测试知识编辑和多模态 RAG 能否缓解过时问题
  4. 机制分析: 通过训练数据分析和机制可解释性追溯过时预测的来源

实验关键数据

主实验(时效性事实准确率)

模型 视觉提示 正确% 视觉 过时% 文本提示 正确% 文本 过时%
GPT-5 75 15 76 14
GPT-4 71 18 72 19
Qwen2.5-VL 32 38 39 40
Qwen2-VL 28 38 36 44
InternVL3.5 26 21 40 29
LLaVA-OneVision 22 36 31 45
PaliGemma 2 3 4 0 0

核心发现: - 开源 VLM 仅 3-32% 正确,大量回答是过时的(20-38%) - 视觉比文本更差:几乎所有模型的视觉正确率低于文本正确率 - GPT-5 最强但仍有 15% 过时答案 - PaliGemma 2 在视觉上几乎完全失败(93% 无关)

跨模态差距

发现 数据
视觉→文本退化普遍 文本比视觉平均高 5-14pp
实体识别不是唯一原因 Qwen2-VL 91% 识别准确但仅 28% 事实正确
识别正确≠知识正确 即使正确识别实体,仍可能输出过时知识

知识更新方法评估

方法 效果
知识编辑 (KE) 仅在简单场景有效,可能干扰预训练知识
多模态 RAG 部分改善,但跨模态一致性差

亮点与洞察

  • "识别正确≠知识正确"的关键发现:Qwen2-VL 91% 实体识别准确率但仅 28% 事实正确——说明瓶颈不在视觉识别,而在从识别到知识检索的链路中。这挑战了"VLM 不准是因为看不清"的常见假设。
  • 过时知识的普遍性:开源模型中 20-45% 的回答是"过时但历史上正确的"——模型确实学到了这些事实,只是版本不对。这比完全随机的错误更隐蔽、更危险。
  • 动态评估范式:用 Wikidata 实时获取标准答案——基准本身不会过时。这种设计理念值得其他事实性基准借鉴。

局限性 / 可改进方向

  • 规模较小: 139 个事实覆盖面有限,可能不能代表所有类型的时效性知识
  • 视觉实体类型有限: 仅国旗/肖像/Logo 三类,不覆盖场景、事件等更复杂的视觉实体
  • 未评估最新模型: Qwen3-VL、LLaVA-4D 等 2026 年新模型未包含

相关工作与启发

  • vs DyKnow: DyKnow 是纯文本 LLM 的动态基准,V-DyKnow 扩展到多模态——增加了视觉-文本跨模态分析
  • 启发:对于 daily arxiv 项目也有参考意义——我们追踪的论文信息也是时效性的,需要考虑模型知识的时效性

评分

  • 新颖性: ⭐⭐⭐⭐ 动态评估+跨模态时效性分析是新颖视角
  • 实验充分度: ⭐⭐⭐⭐ 9个模型+知识编辑+RAG+机制分析
  • 写作质量: ⭐⭐⭐⭐ 清晰系统
  • 价值: ⭐⭐⭐⭐ 对 VLM 事实性评估有重要方法论贡献