跳转至

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

日期: 2026-03-08
arXiv: 2603.07394
代码: 项目页
领域: 多模态/VLM
关键词: VQA, ambiguity, strategic response, GRPO, vision-language model

一句话总结

提出 AQuA 数据集,将视觉问答中的歧义分为 4 个层级(无歧义/可推断/多解/需澄清),训练 VLM 根据歧义程度自适应选择回答策略——SFT + GRPO 微调后的 3B 模型超越 GPT-5 和 Gemini 2.5 Flash。

研究背景与动机

  1. 领域现状: 现有 VQA benchmark 主要评估清晰无歧义的问题,但现实场景中用户提问经常含有不同程度的歧义(指代不明、多目标、场景复杂)。

  2. 现有痛点: (a) VLM 面对歧义问题时倾向于过度自信地给出答案,而非寻求澄清;(b) 已有歧义 VQA 工作采用二元策略(回答 or 追问),不符合人类的多样化策略选择;(c) 缺乏系统性的歧义分级和策略感知的训练数据。

  3. 核心 idea: 设计 4 级歧义分类体系,让模型学会根据歧义程度选择最优策略——直接回答、推断意图后回答、列出所有可能答案、或请求澄清。

方法详解

整体框架

构建 AQuA 数据集(7.2K 样本,4 级均衡)→ SFT 阶段教会模型策略空间 → GRPO 阶段用 LLM-as-judge 奖励优化策略选择 → 评估策略准确率和事实准确率。

关键设计

  1. 4 级歧义分类:

    • Level 0: 无歧义,标准 VQA
    • Level 1: 低歧义,指代词可从上下文推断(如"this"指向唯一显著物体)
    • Level 2: 中等歧义,2-3 个合理答案,列举比追问更高效
    • Level 3: 高歧义(≥5 个显著物体),必须请求澄清
  2. GRPO 奖励设计:

    • 策略正确且无事实错误 → 奖励 1
    • 策略正确但有事实幻觉 → 奖励 1-λ(λ=0.3)
    • 策略错误 → 奖励 0
    • 用 GPT-5-mini 作为 judge
  3. 数据集构建:

    • 基于 COCO 图像 + 边界框标注
    • 用显著性评分(面积比×中心距离加权)控制歧义级别
    • GPT-5 生成 QA 对 → 三阶段过滤 → MTurk 人工验证

实验关键数据

主实验

模型 Factual Acc.(Grounded) Strategic Acc. Overall
GPT-5 (zero-shot) 98.4% 22.86%
Gemini 2.5 Flash 91.89% 27.39%
Qwen2.5-VL-3B + AQuA (SFT+GRPO) 显著超越所有基线
InternVL3-2B + AQuA 超越 78B 基线

消融实验

配置 效果
SFT only 学会策略空间但选择不够准确
SFT + GRPO 策略准确率显著提升
Zero-shot(所有模型) Level 2/3 策略准确率 <5%
CoT prompting 略有改善但远不够

关键发现

  • 几乎所有现有 VLM(包括 GPT-5)在 Level 2/3 上策略准确率极低(<5%),说明当前模型严重缺乏歧义感知
  • 人类评估显示 Level 0/1 策略选择一致性 >96%,Level 2/3 有一定主观性
  • 3B 模型经 AQuA 微调后在策略能力上超越 72B/78B 零样本模型

亮点与洞察

  • 歧义分级设计优雅: 4 级分类对应 4 种人类自然策略,既系统又直觉
  • 小模型策略微调超大模型: 证明策略能力不随模型规模自动涌现,需要显式训练
  • SFT→GRPO 两阶段管线: SFT 建立策略基础,GRPO 优化选择——对 VLM 对齐有通用启示

局限性 / 可改进方向

  • 基于 COCO 构建,场景多样性受限于 COCO 分布
  • Level 2/3 边界有一定主观性(人类一致性 ~64%)
  • 仅评估单轮交互,未延伸到多轮对话中的歧义消解

相关工作与启发

  • vs ClearVQA: ClearVQA 采用二元策略(回答/追问),AQuA 有 4 级细粒度策略
  • vs VAGUE: VAGUE 评估视觉上下文消解语言歧义的能力,AQuA 进一步要求策略选择
  • vs GPT-5: GPT-5 事实准确率 98.4% 但策略准确率仅 22.86%,说明"知道答案"≠"知道何时不该直接回答"

评分

  • 新颖性: ⭐⭐⭐⭐ 歧义分级 + 策略感知的范式具有开创性
  • 实验充分度: ⭐⭐⭐⭐ 多模型对比 + 人类评估 + 消融齐全
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,Level 定义精确
  • 价值: ⭐⭐⭐⭐ 对 VLM 安全对齐和实际部署有重要意义