跳转至

Unsolvable Problem Detection: Evaluating Trustworthiness of Large Multimodal Models

会议: ACL 2025
arXiv: 2403.20331
领域: LLM 推理
关键词: 不可解问题检测, 多模态大模型, 可信度评估, 选择题鲁棒性, MM-UPD Bench

一句话总结

本文提出不可解问题检测(UPD)任务评估大型多模态模型(LMM)的鲁棒理解能力,包含三种不可解场景(答案缺失AAD、答案集不兼容IASD、图像问题不兼容IVQD),构建 MM-UPD Bench 基准,实验揭示现有 LMM 在标准 MCQA 上表现良好但在 UPD 上显著挣扎,且现有基准性能与 UPD 能力之间缺乏相关性。

研究背景与动机

  • 多选题问答(MCQA)是评估 LMM 理解能力的主流格式,被 MMBench、MMMU 等广泛采用
  • MCQA 高准确率并不保证模型真正理解了答案——模型可能倾向于从选项中挑选"最不错误"的而非"确定正确"的
  • 此前 LLM 领域已有不可解问题研究(Wang et al. 2025),但未扩展到 LMM,且 LMM 面临的不可解问题类型更丰富(如图像-问题不匹配)
  • 现有基准未评估 LMM 在问题本身有缺陷时的拒答能力,无法揭示模型理解的深度

方法详解

整体框架

UPD 定义了三种不可解问题场景,每种场景评估模型在面对有缺陷问题时是否能正确拒绝回答:

  1. 答案缺失检测(AAD):正确答案不在选项中,测试模型识别选项不足的能力
  2. 答案集不兼容检测(IASD):整个答案集与问题/图像完全无关,测试模型识别选项无意义的能力
  3. 图像问题不兼容检测(IVQD):图像与文本问题之间无相关性,测试模型识别视觉-文本不匹配的能力

关键设计

MM-UPD Bench 构建: - 基于 MMBench(dev, 20231003)构建,三步严格流程: 1. 过滤图像无关问题——使用纯文本 GPT-4 + CircularEval 移除仅靠文本即可回答的问题 2. 针对性构造不可解问题(AAD 移除正确选项、IASD 打乱答案集、IVQD 打乱图像-问题对) 3. 人工检查移除歧义样本 - 最终规模:AAD 820题/18能力维度、IASD 919题/18维度、IVQD 356题/12维度,共 2,095 题

评估指标设计: - Dual Accuracy(核心指标):标准-UPD 问题对同时正确才计为成功 - Standard Accuracy / UPD Accuracy / Original Standard(上界参考) - 三种评估设置:Base(无提示)、Option(添加"以上皆非"选项)、Instruction(显式拒答指引)

评估协议: - 采用 CircularEval(循环移位选项多次测试)和 GPT 辅助选项提取 - 使用 GPT-4o-mini 判断模型是否做出了拒答动作

实验关键数据

主实验

代表性模型的 Dual Accuracy 对比(部分关键结果):

模型 AAD-Orig AAD-Base AAD-Inst IASD-Orig IASD-Base IASD-Inst IVQD-Base IVQD-Inst
LLaVA-OV-7B 86.0 4.5 25.9 82.5 5.5 27.1 2.5 47.8
InternVL2-40B 91.1 43.5 67.9 87.9 45.0 75.7 42.7 80.6
Qwen2.5-VL-7B 88.7 32.2 58.5 84.9 46.1 70.4 71.1 79.5
GPT-4o 83.2 45.6 59.3 80.5 56.1 68.0 65.2 66.0

Original Standard 与 Dual Accuracy 的相关系数

场景 Base-Dual Base-UPD Inst-Dual Inst-UPD
AAD 25.9 22.3 64.9 22.5
IASD 27.0 19.6 65.4 29.9
IVQD 14.6 6.5 62.6 39.1

关键发现

  1. 现有基准与 UPD 能力低相关:MMBench 上的高分完全不代表 UPD 能力——相关系数最低仅 6.5(IVQD-Base-UPD)
  2. 开源 vs 闭源鸿沟:开源 LMM 在 MMBench 上可超越闭源模型,但 UPD 能力差距巨大
  3. Base 设置近乎全灭:不提供任何提示时,多数开源模型 UPD 准确率低于 5%(如 LLaVA-OV-7B AAD仅4.5%)
  4. Instruction 设置有效但有限:显式拒答指引能大幅提升 UPD 分数,但仍远低于 Original Standard 上界
  5. 瓶颈因模型而异:部分模型瓶颈在 LLM 拒答能力(CoT/自反思可改善),部分在视觉理解
  6. GPT-4o 也有弱项:细粒度能力分析显示 GPT-4o 在特定能力维度上仍存在明显缺陷

亮点与洞察

  • UPD 任务定义新颖且实际——LMM 在真实场景中必然会遇到不可解问题,当前评估体系完全忽视了这一维度
  • 基于 MMBench 构建使得 UPD 与标准性能可直接对比,凸显问题严重性
  • 三种不可解类型的区分有理论意义:AAD 测试精确理解、IASD 测试语义一致性判断、IVQD 测试跨模态对齐
  • Dual Accuracy 指标设计优雅——同时要求模型"该答能答、该拒能拒"

局限性

  • MM-UPD Bench 基于 MMBench 构建,问题难度和多样性受限于源数据集
  • IVQD 仅 356 题,样本量较小,覆盖的能力维度也少于 AAD/IASD
  • 使用 GPT-4o-mini 判断拒答动作可能引入偏差
  • 仅评估 MCQA 格式,未扩展到开放式问答或生成任务
  • 未探索专门的训练策略来提升 LMM 的 UPD 能力

相关工作

  • MCQA 脆弱性:选项顺序敏感性(Robinson et al. 2023)、循环评估(Wang et al. 2024)
  • 不可解问题:NLP 中的 SQuAD 2.0、VQA 中的不可回答问题(Gurari et al. 2018)
  • LLM 拒答:知识缺口时的弃权研究(Kadavath et al. 2022、Feng et al. 2024)
  • LMM 评估基准:MMBench、MMMU、RULER 等

评分

  • 新颖性:⭐⭐⭐⭐⭐(UPD 定义新颖,填补重要评估空白)
  • 实用性:⭐⭐⭐⭐(直接推动 LMM 可信度研究)
  • 实验充分度:⭐⭐⭐⭐⭐(20+ 模型、3 种场景、3 种评估设置、细粒度能力分析)
  • 写作质量:⭐⭐⭐⭐⭐(结构清晰,问题定义严谨)