跳转至

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

日期: 2026-03-07
arXiv: 2603.07071
代码: 无
领域: 视频理解
关键词: long video understanding, trustworthiness, refusal behavior, VLM evaluation, uncertainty

一句话总结

提出 VirtueBench,首个显式评估 VLM 在长视频理解中"不确定性下可信度"的基准——通过为每个视频构建多帧采样级别并区分可回答/不可回答案例,揭示大多数模型不善于诚实拒绝(拒绝准确率 0%~70%+),促使社区从"猜对就行"转向"可信回答"。

研究背景与动机

  1. 领域现状: 长视频理解是 VLM 的核心挑战之一。当前模型受限于视觉 token 预算,通常只能输入 256~512 帧(1 FPS 下仅覆盖几分钟),远不足以覆盖完整视频内容。

  2. 现有痛点: 当关键帧缺失时,部分模型会"猜"出正确答案并获得高分,而诚实表示"信息不足"的模型反而被判错。这导致现有基准(Video-MME、LongVideoBench 等)的评估结果具有误导性——鼓励模型猜测而非诚实回答。

  3. 核心矛盾: 现有评估协议只区分"对/错",不区分"有信息时的正确回答"和"缺信息时的幸运猜测"。这使得评估分数无法反映模型的真实视频理解能力。

  4. 本文要解决什么: (a) 如何构建能区分可回答/不可回答情况的基准? (b) VLM 在信息不足时的拒绝行为如何量化评估?

  5. 切入角度: 对同一视频在不同帧采样级别(64→1024 帧)下构建实例,标注每个级别的真实答案(含"信息不足"选项),从而将不确定性纳入评估体系。

  6. 核心 idea: 把评估从"只看对不对"扩展为"对的时候真的理解了吗?不知道的时候能诚实说吗?"——通过多帧级别 + 可回答性标注实现。

方法详解

整体框架

源视频-问题对 → 以 1 FPS 降采样 → 均匀采样为 5 个帧级别的 clip(64/128/256/512/1024 帧) → 每个 clip 独立标注 ground truth(含"信息不足") → 送入 VLM 评估 → GPT-4o 作为 judge 打分(两阶段:拒绝检测 + 正确性评估)。

关键设计

  1. 多帧级别构建与标注:

    • 做什么:为每个视频-问题对生成最多 5 个不同帧数的 clip
    • 核心思路:不同帧数覆盖不同时间范围,关键信息可能在某些帧级别缺失。先用 Gemini-2.5-Pro 生成参考答案,再由人工标注最终答案(含"信息不足"标签),至少两位标注者独立审核
    • 设计动机:直接模拟真实评估中 VLM 输入帧数有限的场景,使得不确定性成为评估的基本维度
  2. 质量过滤流程:

    • 做什么:从 33,400 个原始问题筛选至约 2,500 个高质量开放式问答
    • 核心思路:多阶段过滤——去除答案过长(>6 词)、依赖选项上下文、涉及时间戳/字幕、主观判断的问题;用 Gemini-2.5-Flash 单帧测试去除靠常识即可回答的问题
    • 设计动机:确保问题必须依赖视频理解才能回答,避免快捷方式
  3. 两阶段评估管线:

    • 做什么:用 GPT-4o 进行自动化评估
    • 核心思路:第一阶段检测模型是否拒绝回答,第二阶段验证有确定答案的回答是否正确。拒绝准确率(refusal accuracy)= 在不可回答问题上正确拒绝的比例
    • 设计动机:将评估从单一正确率拆分为非拒绝正确率 + 拒绝准确率,全面反映模型可信度

评估指标设计

  • Overall accuracy: 所有问题的综合正确率(不可回答问题只有拒绝才算对)
  • Non-refusal accuracy: 有确定答案的问题上的正确率
  • Refusal accuracy: 不可回答问题上的拒绝准确率
  • 进一步按 Perception/Reasoning 维度拆分

实验关键数据

主实验

模型 64帧 Overall 64帧 Refusal 128帧 Overall 备注
Gemini-2.5-Flash 58.96 72.16 57.18 最佳商业模型
GPT-5 50.30 53.73 53.76 帧数增加时提升
Qwen3-VL-32B 50.83 53.14 50.63 最佳开源模型
Qwen2.5-VL-72B 49.32 62.94 45.00 拒绝能力强
Mimo-VL-7B-RL 39.98 31.57 40.39 RL 提升显著
LLaVA-Video-72B 25.53 0.98 26.11 几乎不拒绝
VideoChat-Flash-7B 21.54 0.98 24.35 拒绝能力极差

关键消融:拒绝行为分析

模型 有拒绝提示 Refusal Acc 无拒绝提示 Refusal Acc 下降
Qwen2.5-VL-72B 62.94% 30.20% -52%
GPT-4o 69.02% 32.55% -53%
Qwen3-VL-32B 53.14% 25.10% -53%
LLaVA-Video-72B 0.98% 0.39% 几乎为零

关键发现

  • 拒绝能力差异巨大: 最佳模型(Gemini-2.5-Flash)拒绝准确率 72%,最差模型(LLaVA-Video)接近 0%——即使关键帧完全缺失也坚持猜答案
  • 提示依赖严重: 去掉显式拒绝提示后,大多数模型拒绝准确率下降约一半,说明当前拒绝行为是被提示驱动而非内在能力
  • 帧数增加 ≠ 准确率提升: 与以往基准不同,VirtueBench 中增加帧数不一定提升分数(因为考虑了拒绝),揭示了以往评估的虚高问题
  • RL 训练有正向作用: Mimo-VL-7B-RL 相比基础版在 refusal 上从 23.53% 提升至 31.57%,但仍远不够

亮点与洞察

  • 评估范式转变: 从"答对率"到"可信度"的评估转型非常有启发——适用于所有信息不完整的场景(不只是视频)
  • 信息不足标注方法: 多帧级别 + 独立标注的思路可以推广到其他模态(如文档理解中的部分可见文档)
  • 拒绝行为的量化: 首次系统量化了 25 个 VLM 的拒绝行为,数据清晰显示这是当前 VLM 训练的一个系统性缺陷

局限性 / 可改进方向

  • 数据集规模: 1,328 个实例相对较小,可能不足以覆盖所有视频理解场景
  • 仅限开放式问答: 没有评估模型在选择题下的拒绝行为(选择题场景中拒绝更不自然)
  • Judge 偏差: 使用 GPT-4o 作为 judge 可能引入偏差,尤其在判断"是否为拒绝"时存在边界情况
  • 拒绝训练方案缺失: 论文诊断了问题但未提出具体的训练方案来提升拒绝能力,这是自然的后续方向

相关工作与启发

  • vs VideoHallucer/VIDHALLUC: 这些聚焦于特定幻觉类型(时序、语义聚合等),VirtueBench聚焦不确定性下的诚实回答,维度互补
  • vs VideoEval-Pro: VideoEval-Pro 也指出 MCQ 高估模型能力,但仍用"对/错"评估;VirtueBench 进一步加入"可回答性"维度
  • 启发: 可以将此思路应用于 document QA、medical VQA 等同样存在"信息不完整"的场景

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统性评估 VLM 不确定性下可信度的视频基准,切入角度新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 25 个模型、5 个帧级别、多维度分析,非常全面
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表丰富,动机阐述有说服力
  • 价值: ⭐⭐⭐⭐ 对 VLM 评估社区有重要指导意义,推动从"准确率竞赛"向"可信评估"转型