Unsolvable Problem Detection: Evaluating Trustworthiness of Large Multimodal Models¶

会议: ACL 2025
arXiv: 2403.20331
领域: LLM 推理
关键词: 不可解问题检测, 多模态大模型, 可信度评估, 选择题鲁棒性, MM-UPD Bench

一句话总结¶

本文提出不可解问题检测（UPD）任务评估大型多模态模型（LMM）的鲁棒理解能力，包含三种不可解场景（答案缺失AAD、答案集不兼容IASD、图像问题不兼容IVQD），构建 MM-UPD Bench 基准，实验揭示现有 LMM 在标准 MCQA 上表现良好但在 UPD 上显著挣扎，且现有基准性能与 UPD 能力之间缺乏相关性。

研究背景与动机¶

多选题问答（MCQA）是评估 LMM 理解能力的主流格式，被 MMBench、MMMU 等广泛采用
MCQA 高准确率并不保证模型真正理解了答案——模型可能倾向于从选项中挑选"最不错误"的而非"确定正确"的
此前 LLM 领域已有不可解问题研究（Wang et al. 2025），但未扩展到 LMM，且 LMM 面临的不可解问题类型更丰富（如图像-问题不匹配）
现有基准未评估 LMM 在问题本身有缺陷时的拒答能力，无法揭示模型理解的深度

方法详解¶

整体框架¶

UPD 定义了三种不可解问题场景，每种场景评估模型在面对有缺陷问题时是否能正确拒绝回答：

答案缺失检测（AAD）：正确答案不在选项中，测试模型识别选项不足的能力
答案集不兼容检测（IASD）：整个答案集与问题/图像完全无关，测试模型识别选项无意义的能力
图像问题不兼容检测（IVQD）：图像与文本问题之间无相关性，测试模型识别视觉-文本不匹配的能力

关键设计¶

MM-UPD Bench 构建： - 基于 MMBench（dev, 20231003）构建，三步严格流程： 1. 过滤图像无关问题——使用纯文本 GPT-4 + CircularEval 移除仅靠文本即可回答的问题 2. 针对性构造不可解问题（AAD 移除正确选项、IASD 打乱答案集、IVQD 打乱图像-问题对） 3. 人工检查移除歧义样本 - 最终规模：AAD 820题/18能力维度、IASD 919题/18维度、IVQD 356题/12维度，共 2,095 题

评估指标设计： - Dual Accuracy（核心指标）：标准-UPD 问题对同时正确才计为成功 - Standard Accuracy / UPD Accuracy / Original Standard（上界参考） - 三种评估设置：Base（无提示）、Option（添加"以上皆非"选项）、Instruction（显式拒答指引）

评估协议： - 采用 CircularEval（循环移位选项多次测试）和 GPT 辅助选项提取 - 使用 GPT-4o-mini 判断模型是否做出了拒答动作

实验关键数据¶

主实验¶

代表性模型的 Dual Accuracy 对比（部分关键结果）：

模型	AAD-Orig	AAD-Base	AAD-Inst	IASD-Orig	IASD-Base	IASD-Inst	IVQD-Base	IVQD-Inst
LLaVA-OV-7B	86.0	4.5	25.9	82.5	5.5	27.1	2.5	47.8
InternVL2-40B	91.1	43.5	67.9	87.9	45.0	75.7	42.7	80.6
Qwen2.5-VL-7B	88.7	32.2	58.5	84.9	46.1	70.4	71.1	79.5
GPT-4o	83.2	45.6	59.3	80.5	56.1	68.0	65.2	66.0

Original Standard 与 Dual Accuracy 的相关系数：

场景	Base-Dual	Base-UPD	Inst-Dual	Inst-UPD
AAD	25.9	22.3	64.9	22.5
IASD	27.0	19.6	65.4	29.9
IVQD	14.6	6.5	62.6	39.1

关键发现¶

现有基准与 UPD 能力低相关：MMBench 上的高分完全不代表 UPD 能力——相关系数最低仅 6.5（IVQD-Base-UPD）
开源 vs 闭源鸿沟：开源 LMM 在 MMBench 上可超越闭源模型，但 UPD 能力差距巨大
Base 设置近乎全灭：不提供任何提示时，多数开源模型 UPD 准确率低于 5%（如 LLaVA-OV-7B AAD仅4.5%）
Instruction 设置有效但有限：显式拒答指引能大幅提升 UPD 分数，但仍远低于 Original Standard 上界
瓶颈因模型而异：部分模型瓶颈在 LLM 拒答能力（CoT/自反思可改善），部分在视觉理解
GPT-4o 也有弱项：细粒度能力分析显示 GPT-4o 在特定能力维度上仍存在明显缺陷

亮点与洞察¶

UPD 任务定义新颖且实际——LMM 在真实场景中必然会遇到不可解问题，当前评估体系完全忽视了这一维度
基于 MMBench 构建使得 UPD 与标准性能可直接对比，凸显问题严重性
三种不可解类型的区分有理论意义：AAD 测试精确理解、IASD 测试语义一致性判断、IVQD 测试跨模态对齐
Dual Accuracy 指标设计优雅——同时要求模型"该答能答、该拒能拒"

局限性¶

MM-UPD Bench 基于 MMBench 构建，问题难度和多样性受限于源数据集
IVQD 仅 356 题，样本量较小，覆盖的能力维度也少于 AAD/IASD
使用 GPT-4o-mini 判断拒答动作可能引入偏差
仅评估 MCQA 格式，未扩展到开放式问答或生成任务
未探索专门的训练策略来提升 LMM 的 UPD 能力

评分¶

新颖性：⭐⭐⭐⭐⭐（UPD 定义新颖，填补重要评估空白）
实用性：⭐⭐⭐⭐（直接推动 LMM 可信度研究）
实验充分度：⭐⭐⭐⭐⭐（20+ 模型、3 种场景、3 种评估设置、细粒度能力分析）
写作质量：⭐⭐⭐⭐⭐（结构清晰，问题定义严谨）