AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions¶

会议: ICLR 2026
arXiv: 2603.07394
代码: https://aqua-iclr2026.github.io/
领域: 多模态VLM
关键词: ambiguity, VQA, response strategy, uncertainty handling, GRPO

一句话总结¶

提出 AQuA，首个按模糊度细粒度分级（4 级）的视觉问答数据集（7.2K 样本），为每级定义最优回应策略（直接回答/推断/列举/请求澄清），发现 GPT-5 和 Gemini 在模糊 VQA 上都过度自信地直接回答，通过 SFT+GRPO 训练的 3B 模型反而能超越闭源大模型的策略适应能力。

研究背景与动机¶

领域现状：VQA benchmark 主要使用清晰无歧义的图像-问题对，但真实场景中歧义无处不在（指代不明、多个合理对象、场景复杂等）。
现有痛点：(1) 现有模糊 VQA 研究采用二元策略——要么回答要么询问——不反映人类实际的灵活应对；(2) GPT-5、Gemini 等 SOTA 模型面对模糊问题时倾向于过度自信地直接回答，而非根据歧义程度调整策略。
核心矛盾：不同类型和程度的歧义需要不同的回应策略，但模型缺乏对歧义的细粒度感知和策略选择能力。
本文要解决什么？ 如何让 VLM 根据视觉问题的歧义程度自适应选择最优回应策略？
切入角度：定义 4 级歧义分类体系 + 对应策略，构建训练数据，用 SFT+GRPO 训练模型。
核心idea一句话：教 VLM 像人一样——简单问题直接答、可推断的目标直接推断、少量候选时列举、高度歧义时请求澄清。

方法详解¶

整体框架¶

AQuA 是一个数据集 + 训练方法的组合。数据集 7.2K 样本（每级 1.8K），训练流程：SFT 先教会策略空间 → GRPO 强化策略选择。基于 COCO 图像，用 GPT-5 生成问答对，三阶段过滤+人工验证。

关键设计¶

四级歧义分类体系:
Level 0（无歧义）：标准 VQA，唯一答案 → 直接回答
Level 1（低级指代歧义）：有"this/that"等指代词但可从上下文推断 → 推断后直接回答
Level 2（多重合理解释）：2-3 个合理目标 → 列举所有可能答案
Level 3（高度歧义）：5+ 个相似对象，无法推断 → 请求澄清
设计动机：模拟人类处理歧义的四种自然策略，人工评估确认与人类策略选择高度一致
SFT + GRPO 两阶段训练:
SFT：在 AQuA 训练集上做监督微调，教模型策略表达空间
GRPO：用 LLM-as-judge 评估策略正确性，R=1（策略正确且事实准确）/ R=1-λ（策略正确但有幻觉）/ R=0（策略错误）
设计动机：SFT 独立无法可靠选择正确策略；GRPO 通过奖励信号强化策略决策
基于物体显著度的歧义级别自动分配:
使用 COCO bounding box 计算物体显著度分数（面积比 ×0.7 + 中心距离 ×0.3）
阈值 0.6 以上为显著物体，按显著物体数量分配级别（1→L1, 2-3→L2, 5+→L3）

损失函数 / 训练策略¶

SFT 用标准交叉熵。GRPO 中 GPT-5-mini 作 judge，奖励策略一致性，λ=0.3 惩罚事实错误。在 Qwen2.5-VL-3B 和 InternVL3-2B 上微调。

实验关键数据¶

主实验（策略准确率 Strategic Acc.）¶

模型	L0	L1	L2	L3	Overall
GPT-5	89.7	0.7	0.3	0.8	22.9
Gemini 2.5 Flash	99.0	5.2	4.4	0.9	27.4
Qwen2.5-VL-72B	99.6	0.6	2.1	0.9	25.8
Qwen2.5-VL-3B + AQuA	-	高	高	高	>50

关键发现¶

所有基线模型在 L1-L3 上策略准确率接近 0%：GPT-5 在 L1/L2/L3 上几乎从不请求澄清或列举选项，默认直接回答
GPT-5 事实准确率 98.4% 但策略准确率仅 22.9%——模型知道答案但不知道什么时候该说"不确定"
3B 参数的 AQuA 训练模型在策略准确率上超越 GPT-5 和 72B 开源模型
CoT prompting 仅小幅提升策略准确率（22.9→25.7 for GPT-5），说明问题不在推理深度而在策略意识
人工评估确认 AQuA 的四级分类与人类策略选择一致性高（L0: 100%, L1: 96%, L2/L3: 64%）

亮点与洞察¶

揭示了 VLM 的"过度自信"问题：即使是最强的模型也倾向于对模糊问题给出单一答案而非表达不确定性——这是安全部署的重大风险
四级歧义分类的实用价值：比二元"答/问"更贴近真实人类行为，为 VLM 的不确定性处理提供了更细粒度的框架
小模型+策略训练 > 大模型：3B 模型经 AQuA 训练后策略能力远超 GPT-5，说明这是一个可学的能力而非需要规模

局限性 / 可改进方向¶

数据集规模较小（7.2K），可能限制了策略泛化能力
基于 COCO 的物体级歧义，未覆盖更高层次的语义歧义（如隐喻、文化差异）
Level 2/3 的边界有一定主观性（人工一致率 64%）
仅在单轮 VQA 上评估，多轮对话中的策略切换未探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个多策略歧义 VQA 框架，四级分类体系原创
实验充分度: ⭐⭐⭐⭐ 多模型对比、人工验证、GRPO 消融
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，examples 直观，级别定义精确
价值: ⭐⭐⭐⭐⭐ 对 VLM 安全部署有直接启示——模型需要学会说"我不确定"