VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding¶

日期: 2026-03-07
arXiv: 2603.07071
代码: 无
领域: 视频理解
关键词: long video understanding, trustworthiness, refusal behavior, VLM evaluation, uncertainty

一句话总结¶

提出 VirtueBench，首个显式评估 VLM 在长视频理解中"不确定性下可信度"的基准——通过为每个视频构建多帧采样级别并区分可回答/不可回答案例，揭示大多数模型不善于诚实拒绝（拒绝准确率 0%~70%+），促使社区从"猜对就行"转向"可信回答"。

研究背景与动机¶

领域现状: 长视频理解是 VLM 的核心挑战之一。当前模型受限于视觉 token 预算，通常只能输入 256~512 帧（1 FPS 下仅覆盖几分钟），远不足以覆盖完整视频内容。
现有痛点: 当关键帧缺失时，部分模型会"猜"出正确答案并获得高分，而诚实表示"信息不足"的模型反而被判错。这导致现有基准（Video-MME、LongVideoBench 等）的评估结果具有误导性——鼓励模型猜测而非诚实回答。
核心矛盾: 现有评估协议只区分"对/错"，不区分"有信息时的正确回答"和"缺信息时的幸运猜测"。这使得评估分数无法反映模型的真实视频理解能力。
本文要解决什么: (a) 如何构建能区分可回答/不可回答情况的基准？ (b) VLM 在信息不足时的拒绝行为如何量化评估？
切入角度: 对同一视频在不同帧采样级别（64→1024 帧）下构建实例，标注每个级别的真实答案（含"信息不足"选项），从而将不确定性纳入评估体系。
核心 idea: 把评估从"只看对不对"扩展为"对的时候真的理解了吗？不知道的时候能诚实说吗？"——通过多帧级别 + 可回答性标注实现。

方法详解¶

整体框架¶

源视频-问题对 → 以 1 FPS 降采样 → 均匀采样为 5 个帧级别的 clip（64/128/256/512/1024 帧） → 每个 clip 独立标注 ground truth（含"信息不足"） → 送入 VLM 评估 → GPT-4o 作为 judge 打分（两阶段：拒绝检测 + 正确性评估）。

关键设计¶

多帧级别构建与标注:
- 做什么：为每个视频-问题对生成最多 5 个不同帧数的 clip
- 核心思路：不同帧数覆盖不同时间范围，关键信息可能在某些帧级别缺失。先用 Gemini-2.5-Pro 生成参考答案，再由人工标注最终答案（含"信息不足"标签），至少两位标注者独立审核
- 设计动机：直接模拟真实评估中 VLM 输入帧数有限的场景，使得不确定性成为评估的基本维度
质量过滤流程:
- 做什么：从 33,400 个原始问题筛选至约 2,500 个高质量开放式问答
- 核心思路：多阶段过滤——去除答案过长（>6 词）、依赖选项上下文、涉及时间戳/字幕、主观判断的问题；用 Gemini-2.5-Flash 单帧测试去除靠常识即可回答的问题
- 设计动机：确保问题必须依赖视频理解才能回答，避免快捷方式
两阶段评估管线:
- 做什么：用 GPT-4o 进行自动化评估
- 核心思路：第一阶段检测模型是否拒绝回答，第二阶段验证有确定答案的回答是否正确。拒绝准确率（refusal accuracy）= 在不可回答问题上正确拒绝的比例
- 设计动机：将评估从单一正确率拆分为非拒绝正确率 + 拒绝准确率，全面反映模型可信度

评估指标设计¶

Overall accuracy: 所有问题的综合正确率（不可回答问题只有拒绝才算对）
Non-refusal accuracy: 有确定答案的问题上的正确率
Refusal accuracy: 不可回答问题上的拒绝准确率
进一步按 Perception/Reasoning 维度拆分

实验关键数据¶

主实验¶

模型	64帧 Overall	64帧 Refusal	128帧 Overall	备注
Gemini-2.5-Flash	58.96	72.16	57.18	最佳商业模型
GPT-5	50.30	53.73	53.76	帧数增加时提升
Qwen3-VL-32B	50.83	53.14	50.63	最佳开源模型
Qwen2.5-VL-72B	49.32	62.94	45.00	拒绝能力强
Mimo-VL-7B-RL	39.98	31.57	40.39	RL 提升显著
LLaVA-Video-72B	25.53	0.98	26.11	几乎不拒绝
VideoChat-Flash-7B	21.54	0.98	24.35	拒绝能力极差

关键消融：拒绝行为分析¶

模型	有拒绝提示 Refusal Acc	无拒绝提示 Refusal Acc	下降
Qwen2.5-VL-72B	62.94%	30.20%	-52%
GPT-4o	69.02%	32.55%	-53%
Qwen3-VL-32B	53.14%	25.10%	-53%
LLaVA-Video-72B	0.98%	0.39%	几乎为零

关键发现¶

拒绝能力差异巨大: 最佳模型（Gemini-2.5-Flash）拒绝准确率 72%，最差模型（LLaVA-Video）接近 0%——即使关键帧完全缺失也坚持猜答案
提示依赖严重: 去掉显式拒绝提示后，大多数模型拒绝准确率下降约一半，说明当前拒绝行为是被提示驱动而非内在能力
帧数增加 ≠ 准确率提升: 与以往基准不同，VirtueBench 中增加帧数不一定提升分数（因为考虑了拒绝），揭示了以往评估的虚高问题
RL 训练有正向作用: Mimo-VL-7B-RL 相比基础版在 refusal 上从 23.53% 提升至 31.57%，但仍远不够

亮点与洞察¶

评估范式转变: 从"答对率"到"可信度"的评估转型非常有启发——适用于所有信息不完整的场景（不只是视频）
信息不足标注方法: 多帧级别 + 独立标注的思路可以推广到其他模态（如文档理解中的部分可见文档）
拒绝行为的量化: 首次系统量化了 25 个 VLM 的拒绝行为，数据清晰显示这是当前 VLM 训练的一个系统性缺陷

局限性 / 可改进方向¶

数据集规模: 1,328 个实例相对较小，可能不足以覆盖所有视频理解场景
仅限开放式问答: 没有评估模型在选择题下的拒绝行为（选择题场景中拒绝更不自然）
Judge 偏差: 使用 GPT-4o 作为 judge 可能引入偏差，尤其在判断"是否为拒绝"时存在边界情况
拒绝训练方案缺失: 论文诊断了问题但未提出具体的训练方案来提升拒绝能力，这是自然的后续方向

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性评估 VLM 不确定性下可信度的视频基准，切入角度新颖
实验充分度: ⭐⭐⭐⭐⭐ 25 个模型、5 个帧级别、多维度分析，非常全面
写作质量: ⭐⭐⭐⭐ 论文结构清晰，图表丰富，动机阐述有说服力
价值: ⭐⭐⭐⭐ 对 VLM 评估社区有重要指导意义，推动从"准确率竞赛"向"可信评估"转型