AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions¶
日期: 2026-03-08
arXiv: 2603.07394
代码: 项目页
领域: 多模态/VLM
关键词: VQA, ambiguity, strategic response, GRPO, vision-language model
一句话总结¶
提出 AQuA 数据集,将视觉问答中的歧义分为 4 个层级(无歧义/可推断/多解/需澄清),训练 VLM 根据歧义程度自适应选择回答策略——SFT + GRPO 微调后的 3B 模型超越 GPT-5 和 Gemini 2.5 Flash。
研究背景与动机¶
-
领域现状: 现有 VQA benchmark 主要评估清晰无歧义的问题,但现实场景中用户提问经常含有不同程度的歧义(指代不明、多目标、场景复杂)。
-
现有痛点: (a) VLM 面对歧义问题时倾向于过度自信地给出答案,而非寻求澄清;(b) 已有歧义 VQA 工作采用二元策略(回答 or 追问),不符合人类的多样化策略选择;(c) 缺乏系统性的歧义分级和策略感知的训练数据。
-
核心 idea: 设计 4 级歧义分类体系,让模型学会根据歧义程度选择最优策略——直接回答、推断意图后回答、列出所有可能答案、或请求澄清。
方法详解¶
整体框架¶
构建 AQuA 数据集(7.2K 样本,4 级均衡)→ SFT 阶段教会模型策略空间 → GRPO 阶段用 LLM-as-judge 奖励优化策略选择 → 评估策略准确率和事实准确率。
关键设计¶
-
4 级歧义分类:
- Level 0: 无歧义,标准 VQA
- Level 1: 低歧义,指代词可从上下文推断(如"this"指向唯一显著物体)
- Level 2: 中等歧义,2-3 个合理答案,列举比追问更高效
- Level 3: 高歧义(≥5 个显著物体),必须请求澄清
-
GRPO 奖励设计:
- 策略正确且无事实错误 → 奖励 1
- 策略正确但有事实幻觉 → 奖励 1-λ(λ=0.3)
- 策略错误 → 奖励 0
- 用 GPT-5-mini 作为 judge
-
数据集构建:
- 基于 COCO 图像 + 边界框标注
- 用显著性评分(面积比×中心距离加权)控制歧义级别
- GPT-5 生成 QA 对 → 三阶段过滤 → MTurk 人工验证
实验关键数据¶
主实验¶
| 模型 | Factual Acc.(Grounded) | Strategic Acc. Overall |
|---|---|---|
| GPT-5 (zero-shot) | 98.4% | 22.86% |
| Gemini 2.5 Flash | 91.89% | 27.39% |
| Qwen2.5-VL-3B + AQuA (SFT+GRPO) | — | 显著超越所有基线 |
| InternVL3-2B + AQuA | — | 超越 78B 基线 |
消融实验¶
| 配置 | 效果 |
|---|---|
| SFT only | 学会策略空间但选择不够准确 |
| SFT + GRPO | 策略准确率显著提升 |
| Zero-shot(所有模型) | Level 2/3 策略准确率 <5% |
| CoT prompting | 略有改善但远不够 |
关键发现¶
- 几乎所有现有 VLM(包括 GPT-5)在 Level 2/3 上策略准确率极低(<5%),说明当前模型严重缺乏歧义感知
- 人类评估显示 Level 0/1 策略选择一致性 >96%,Level 2/3 有一定主观性
- 3B 模型经 AQuA 微调后在策略能力上超越 72B/78B 零样本模型
亮点与洞察¶
- 歧义分级设计优雅: 4 级分类对应 4 种人类自然策略,既系统又直觉
- 小模型策略微调超大模型: 证明策略能力不随模型规模自动涌现,需要显式训练
- SFT→GRPO 两阶段管线: SFT 建立策略基础,GRPO 优化选择——对 VLM 对齐有通用启示
局限性 / 可改进方向¶
- 基于 COCO 构建,场景多样性受限于 COCO 分布
- Level 2/3 边界有一定主观性(人类一致性 ~64%)
- 仅评估单轮交互,未延伸到多轮对话中的歧义消解
相关工作与启发¶
- vs ClearVQA: ClearVQA 采用二元策略(回答/追问),AQuA 有 4 级细粒度策略
- vs VAGUE: VAGUE 评估视觉上下文消解语言歧义的能力,AQuA 进一步要求策略选择
- vs GPT-5: GPT-5 事实准确率 98.4% 但策略准确率仅 22.86%,说明"知道答案"≠"知道何时不该直接回答"
评分¶
- 新颖性: ⭐⭐⭐⭐ 歧义分级 + 策略感知的范式具有开创性
- 实验充分度: ⭐⭐⭐⭐ 多模型对比 + 人类评估 + 消融齐全
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,Level 定义精确
- 价值: ⭐⭐⭐⭐ 对 VLM 安全对齐和实际部署有重要意义