AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions¶

日期: 2026-03-08
arXiv: 2603.07394
代码: 项目页
领域: 多模态/VLM
关键词: VQA, ambiguity, strategic response, GRPO, vision-language model

一句话总结¶

提出 AQuA 数据集，将视觉问答中的歧义分为 4 个层级（无歧义/可推断/多解/需澄清），训练 VLM 根据歧义程度自适应选择回答策略——SFT + GRPO 微调后的 3B 模型超越 GPT-5 和 Gemini 2.5 Flash。

领域现状: 现有 VQA benchmark 主要评估清晰无歧义的问题，但现实场景中用户提问经常含有不同程度的歧义（指代不明、多目标、场景复杂）。
现有痛点: (a) VLM 面对歧义问题时倾向于过度自信地给出答案，而非寻求澄清；(b) 已有歧义 VQA 工作采用二元策略（回答 or 追问），不符合人类的多样化策略选择；(c) 缺乏系统性的歧义分级和策略感知的训练数据。
核心 idea: 设计 4 级歧义分类体系，让模型学会根据歧义程度选择最优策略——直接回答、推断意图后回答、列出所有可能答案、或请求澄清。

构建 AQuA 数据集（7.2K 样本，4 级均衡）→ SFT 阶段教会模型策略空间 → GRPO 阶段用 LLM-as-judge 奖励优化策略选择 → 评估策略准确率和事实准确率。

4 级歧义分类:
- Level 0: 无歧义，标准 VQA
- Level 1: 低歧义，指代词可从上下文推断（如"this"指向唯一显著物体）
- Level 2: 中等歧义，2-3 个合理答案，列举比追问更高效
- Level 3: 高歧义（≥5 个显著物体），必须请求澄清
GRPO 奖励设计:
- 策略正确且无事实错误 → 奖励 1
- 策略正确但有事实幻觉 → 奖励 1-λ（λ=0.3）
- 策略错误 → 奖励 0
- 用 GPT-5-mini 作为 judge
数据集构建:
- 基于 COCO 图像 + 边界框标注
- 用显著性评分（面积比×中心距离加权）控制歧义级别
- GPT-5 生成 QA 对 → 三阶段过滤 → MTurk 人工验证