VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding¶
日期: 2026-03-07
arXiv: 2603.07071
代码: 无
领域: 视频理解
关键词: long video understanding, trustworthiness, refusal behavior, VLM evaluation, uncertainty
一句话总结¶
提出 VirtueBench,首个显式评估 VLM 在长视频理解中"不确定性下可信度"的基准——通过为每个视频构建多帧采样级别并区分可回答/不可回答案例,揭示大多数模型不善于诚实拒绝(拒绝准确率 0%~70%+),促使社区从"猜对就行"转向"可信回答"。
研究背景与动机¶
-
领域现状: 长视频理解是 VLM 的核心挑战之一。当前模型受限于视觉 token 预算,通常只能输入 256~512 帧(1 FPS 下仅覆盖几分钟),远不足以覆盖完整视频内容。
-
现有痛点: 当关键帧缺失时,部分模型会"猜"出正确答案并获得高分,而诚实表示"信息不足"的模型反而被判错。这导致现有基准(Video-MME、LongVideoBench 等)的评估结果具有误导性——鼓励模型猜测而非诚实回答。
-
核心矛盾: 现有评估协议只区分"对/错",不区分"有信息时的正确回答"和"缺信息时的幸运猜测"。这使得评估分数无法反映模型的真实视频理解能力。
-
本文要解决什么: (a) 如何构建能区分可回答/不可回答情况的基准? (b) VLM 在信息不足时的拒绝行为如何量化评估?
-
切入角度: 对同一视频在不同帧采样级别(64→1024 帧)下构建实例,标注每个级别的真实答案(含"信息不足"选项),从而将不确定性纳入评估体系。
-
核心 idea: 把评估从"只看对不对"扩展为"对的时候真的理解了吗?不知道的时候能诚实说吗?"——通过多帧级别 + 可回答性标注实现。
方法详解¶
整体框架¶
源视频-问题对 → 以 1 FPS 降采样 → 均匀采样为 5 个帧级别的 clip(64/128/256/512/1024 帧) → 每个 clip 独立标注 ground truth(含"信息不足") → 送入 VLM 评估 → GPT-4o 作为 judge 打分(两阶段:拒绝检测 + 正确性评估)。
关键设计¶
-
多帧级别构建与标注:
- 做什么:为每个视频-问题对生成最多 5 个不同帧数的 clip
- 核心思路:不同帧数覆盖不同时间范围,关键信息可能在某些帧级别缺失。先用 Gemini-2.5-Pro 生成参考答案,再由人工标注最终答案(含"信息不足"标签),至少两位标注者独立审核
- 设计动机:直接模拟真实评估中 VLM 输入帧数有限的场景,使得不确定性成为评估的基本维度
-
质量过滤流程:
- 做什么:从 33,400 个原始问题筛选至约 2,500 个高质量开放式问答
- 核心思路:多阶段过滤——去除答案过长(>6 词)、依赖选项上下文、涉及时间戳/字幕、主观判断的问题;用 Gemini-2.5-Flash 单帧测试去除靠常识即可回答的问题
- 设计动机:确保问题必须依赖视频理解才能回答,避免快捷方式
-
两阶段评估管线:
- 做什么:用 GPT-4o 进行自动化评估
- 核心思路:第一阶段检测模型是否拒绝回答,第二阶段验证有确定答案的回答是否正确。拒绝准确率(refusal accuracy)= 在不可回答问题上正确拒绝的比例
- 设计动机:将评估从单一正确率拆分为非拒绝正确率 + 拒绝准确率,全面反映模型可信度
评估指标设计¶
- Overall accuracy: 所有问题的综合正确率(不可回答问题只有拒绝才算对)
- Non-refusal accuracy: 有确定答案的问题上的正确率
- Refusal accuracy: 不可回答问题上的拒绝准确率
- 进一步按 Perception/Reasoning 维度拆分
实验关键数据¶
主实验¶
| 模型 | 64帧 Overall | 64帧 Refusal | 128帧 Overall | 备注 |
|---|---|---|---|---|
| Gemini-2.5-Flash | 58.96 | 72.16 | 57.18 | 最佳商业模型 |
| GPT-5 | 50.30 | 53.73 | 53.76 | 帧数增加时提升 |
| Qwen3-VL-32B | 50.83 | 53.14 | 50.63 | 最佳开源模型 |
| Qwen2.5-VL-72B | 49.32 | 62.94 | 45.00 | 拒绝能力强 |
| Mimo-VL-7B-RL | 39.98 | 31.57 | 40.39 | RL 提升显著 |
| LLaVA-Video-72B | 25.53 | 0.98 | 26.11 | 几乎不拒绝 |
| VideoChat-Flash-7B | 21.54 | 0.98 | 24.35 | 拒绝能力极差 |
关键消融:拒绝行为分析¶
| 模型 | 有拒绝提示 Refusal Acc | 无拒绝提示 Refusal Acc | 下降 |
|---|---|---|---|
| Qwen2.5-VL-72B | 62.94% | 30.20% | -52% |
| GPT-4o | 69.02% | 32.55% | -53% |
| Qwen3-VL-32B | 53.14% | 25.10% | -53% |
| LLaVA-Video-72B | 0.98% | 0.39% | 几乎为零 |
关键发现¶
- 拒绝能力差异巨大: 最佳模型(Gemini-2.5-Flash)拒绝准确率 72%,最差模型(LLaVA-Video)接近 0%——即使关键帧完全缺失也坚持猜答案
- 提示依赖严重: 去掉显式拒绝提示后,大多数模型拒绝准确率下降约一半,说明当前拒绝行为是被提示驱动而非内在能力
- 帧数增加 ≠ 准确率提升: 与以往基准不同,VirtueBench 中增加帧数不一定提升分数(因为考虑了拒绝),揭示了以往评估的虚高问题
- RL 训练有正向作用: Mimo-VL-7B-RL 相比基础版在 refusal 上从 23.53% 提升至 31.57%,但仍远不够
亮点与洞察¶
- 评估范式转变: 从"答对率"到"可信度"的评估转型非常有启发——适用于所有信息不完整的场景(不只是视频)
- 信息不足标注方法: 多帧级别 + 独立标注的思路可以推广到其他模态(如文档理解中的部分可见文档)
- 拒绝行为的量化: 首次系统量化了 25 个 VLM 的拒绝行为,数据清晰显示这是当前 VLM 训练的一个系统性缺陷
局限性 / 可改进方向¶
- 数据集规模: 1,328 个实例相对较小,可能不足以覆盖所有视频理解场景
- 仅限开放式问答: 没有评估模型在选择题下的拒绝行为(选择题场景中拒绝更不自然)
- Judge 偏差: 使用 GPT-4o 作为 judge 可能引入偏差,尤其在判断"是否为拒绝"时存在边界情况
- 拒绝训练方案缺失: 论文诊断了问题但未提出具体的训练方案来提升拒绝能力,这是自然的后续方向
相关工作与启发¶
- vs VideoHallucer/VIDHALLUC: 这些聚焦于特定幻觉类型(时序、语义聚合等),VirtueBench聚焦不确定性下的诚实回答,维度互补
- vs VideoEval-Pro: VideoEval-Pro 也指出 MCQ 高估模型能力,但仍用"对/错"评估;VirtueBench 进一步加入"可回答性"维度
- 启发: 可以将此思路应用于 document QA、medical VQA 等同样存在"信息不完整"的场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统性评估 VLM 不确定性下可信度的视频基准,切入角度新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 25 个模型、5 个帧级别、多维度分析,非常全面
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图表丰富,动机阐述有说服力
- 价值: ⭐⭐⭐⭐ 对 VLM 评估社区有重要指导意义,推动从"准确率竞赛"向"可信评估"转型