Unsolvable Problem Detection: Evaluating Trustworthiness of Large Multimodal Models¶
会议: ACL 2025
arXiv: 2403.20331
领域: LLM 推理
关键词: 不可解问题检测, 多模态大模型, 可信度评估, 选择题鲁棒性, MM-UPD Bench
一句话总结¶
本文提出不可解问题检测(UPD)任务评估大型多模态模型(LMM)的鲁棒理解能力,包含三种不可解场景(答案缺失AAD、答案集不兼容IASD、图像问题不兼容IVQD),构建 MM-UPD Bench 基准,实验揭示现有 LMM 在标准 MCQA 上表现良好但在 UPD 上显著挣扎,且现有基准性能与 UPD 能力之间缺乏相关性。
研究背景与动机¶
- 多选题问答(MCQA)是评估 LMM 理解能力的主流格式,被 MMBench、MMMU 等广泛采用
- MCQA 高准确率并不保证模型真正理解了答案——模型可能倾向于从选项中挑选"最不错误"的而非"确定正确"的
- 此前 LLM 领域已有不可解问题研究(Wang et al. 2025),但未扩展到 LMM,且 LMM 面临的不可解问题类型更丰富(如图像-问题不匹配)
- 现有基准未评估 LMM 在问题本身有缺陷时的拒答能力,无法揭示模型理解的深度
方法详解¶
整体框架¶
UPD 定义了三种不可解问题场景,每种场景评估模型在面对有缺陷问题时是否能正确拒绝回答:
- 答案缺失检测(AAD):正确答案不在选项中,测试模型识别选项不足的能力
- 答案集不兼容检测(IASD):整个答案集与问题/图像完全无关,测试模型识别选项无意义的能力
- 图像问题不兼容检测(IVQD):图像与文本问题之间无相关性,测试模型识别视觉-文本不匹配的能力
关键设计¶
MM-UPD Bench 构建: - 基于 MMBench(dev, 20231003)构建,三步严格流程: 1. 过滤图像无关问题——使用纯文本 GPT-4 + CircularEval 移除仅靠文本即可回答的问题 2. 针对性构造不可解问题(AAD 移除正确选项、IASD 打乱答案集、IVQD 打乱图像-问题对) 3. 人工检查移除歧义样本 - 最终规模:AAD 820题/18能力维度、IASD 919题/18维度、IVQD 356题/12维度,共 2,095 题
评估指标设计: - Dual Accuracy(核心指标):标准-UPD 问题对同时正确才计为成功 - Standard Accuracy / UPD Accuracy / Original Standard(上界参考) - 三种评估设置:Base(无提示)、Option(添加"以上皆非"选项)、Instruction(显式拒答指引)
评估协议: - 采用 CircularEval(循环移位选项多次测试)和 GPT 辅助选项提取 - 使用 GPT-4o-mini 判断模型是否做出了拒答动作
实验关键数据¶
主实验¶
代表性模型的 Dual Accuracy 对比(部分关键结果):
| 模型 | AAD-Orig | AAD-Base | AAD-Inst | IASD-Orig | IASD-Base | IASD-Inst | IVQD-Base | IVQD-Inst |
|---|---|---|---|---|---|---|---|---|
| LLaVA-OV-7B | 86.0 | 4.5 | 25.9 | 82.5 | 5.5 | 27.1 | 2.5 | 47.8 |
| InternVL2-40B | 91.1 | 43.5 | 67.9 | 87.9 | 45.0 | 75.7 | 42.7 | 80.6 |
| Qwen2.5-VL-7B | 88.7 | 32.2 | 58.5 | 84.9 | 46.1 | 70.4 | 71.1 | 79.5 |
| GPT-4o | 83.2 | 45.6 | 59.3 | 80.5 | 56.1 | 68.0 | 65.2 | 66.0 |
Original Standard 与 Dual Accuracy 的相关系数:
| 场景 | Base-Dual | Base-UPD | Inst-Dual | Inst-UPD |
|---|---|---|---|---|
| AAD | 25.9 | 22.3 | 64.9 | 22.5 |
| IASD | 27.0 | 19.6 | 65.4 | 29.9 |
| IVQD | 14.6 | 6.5 | 62.6 | 39.1 |
关键发现¶
- 现有基准与 UPD 能力低相关:MMBench 上的高分完全不代表 UPD 能力——相关系数最低仅 6.5(IVQD-Base-UPD)
- 开源 vs 闭源鸿沟:开源 LMM 在 MMBench 上可超越闭源模型,但 UPD 能力差距巨大
- Base 设置近乎全灭:不提供任何提示时,多数开源模型 UPD 准确率低于 5%(如 LLaVA-OV-7B AAD仅4.5%)
- Instruction 设置有效但有限:显式拒答指引能大幅提升 UPD 分数,但仍远低于 Original Standard 上界
- 瓶颈因模型而异:部分模型瓶颈在 LLM 拒答能力(CoT/自反思可改善),部分在视觉理解
- GPT-4o 也有弱项:细粒度能力分析显示 GPT-4o 在特定能力维度上仍存在明显缺陷
亮点与洞察¶
- UPD 任务定义新颖且实际——LMM 在真实场景中必然会遇到不可解问题,当前评估体系完全忽视了这一维度
- 基于 MMBench 构建使得 UPD 与标准性能可直接对比,凸显问题严重性
- 三种不可解类型的区分有理论意义:AAD 测试精确理解、IASD 测试语义一致性判断、IVQD 测试跨模态对齐
- Dual Accuracy 指标设计优雅——同时要求模型"该答能答、该拒能拒"
局限性¶
- MM-UPD Bench 基于 MMBench 构建,问题难度和多样性受限于源数据集
- IVQD 仅 356 题,样本量较小,覆盖的能力维度也少于 AAD/IASD
- 使用 GPT-4o-mini 判断拒答动作可能引入偏差
- 仅评估 MCQA 格式,未扩展到开放式问答或生成任务
- 未探索专门的训练策略来提升 LMM 的 UPD 能力
相关工作¶
- MCQA 脆弱性:选项顺序敏感性(Robinson et al. 2023)、循环评估(Wang et al. 2024)
- 不可解问题:NLP 中的 SQuAD 2.0、VQA 中的不可回答问题(Gurari et al. 2018)
- LLM 拒答:知识缺口时的弃权研究(Kadavath et al. 2022、Feng et al. 2024)
- LMM 评估基准:MMBench、MMMU、RULER 等
评分¶
- 新颖性:⭐⭐⭐⭐⭐(UPD 定义新颖,填补重要评估空白)
- 实用性:⭐⭐⭐⭐(直接推动 LMM 可信度研究)
- 实验充分度:⭐⭐⭐⭐⭐(20+ 模型、3 种场景、3 种评估设置、细粒度能力分析)
- 写作质量:⭐⭐⭐⭐⭐(结构清晰,问题定义严谨)