跳转至

Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions

会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: https://github.com/jian0805/ClearVQA
领域: 多模态VLM
关键词: VQA歧义, 澄清提问, 交互式对话, 视觉问答, DPO

一句话总结

提出ClearVQA benchmark评估VLM处理歧义视觉问题的能力(覆盖指代歧义/意图欠明确/拼写歧义三类),并通过自动化pipeline生成歧义-澄清问题对用于SFT+DPO训练,使VLM学会"反问用户"而非猜测作答,VQA准确率相对提升13.3%。

背景与动机

用户向VLM提问时经常存在歧义——如"他们站在什么前面?"可能指巴士、也可能指食品车。现有VLM被训练为"直接回答"而非"追问澄清",面对歧义问题只能猜测。已有方法通过改写问题减少歧义,但忽视了VLM交互的本质——可以通过与用户对话来消除歧义。两大挑战:(1) 缺乏评估VLM通过交互消除歧义的benchmark;(2) VLM训练偏向于"回答"而非"提问"。

核心问题

如何让VLM学会在面对歧义视觉问题时主动提出澄清问题,而不是猜测性地给出可能错误的答案?

方法详解

整体框架

ClearVQA Benchmark + 自动化数据生成Pipeline + SFT/DPO训练 = Ask-LLaVA。

关键设计

  1. ClearVQA Benchmark: 三类VQA歧义——
  2. 指代歧义(Referential): 问题中的指代表达不唯一("那个物品是做什么用的?"——哪个物品?)
  3. 意图欠明确(Intent Underspecification): 问题信息不足以确定用户意图("她坐在哪里?"——是指城市还是具体位置?)
  4. 拼写歧义(Spelling): 关键词拼写错误改变含义("invent" vs "event")
  5. 覆盖视觉理解、跨模态推理、细粒度知识、场景文本等多种VQA场景

  6. 自动化数据Pipeline: 从现有VQA数据集(有明确答案)出发,用GPT-4将明确问题"模糊化"为歧义版本,同时生成理想的澄清问题(ICQ)。通过启发式过滤+人工验证确保歧义自然。

  7. SFT + DPO训练:

  8. SFT阶段: 在歧义问题上训练模型生成澄清问题→获取用户反馈→给出正确答案;在非歧义问题上直接回答
  9. DPO阶段: 构建偏好数据——歧义问题上提问优于直接答,非歧义问题上直接答优于提问——使模型学会区分何时该问、何时该答

  10. 推理时的交互流程: 模型接收图片+问题→判断是否歧义→歧义则提澄清问题→GPT-4模拟用户给Yes/No反馈→模型结合反馈给出最终答案。

实验关键数据

VQA准确率(Ask-LLaVA vs 基线):

模型 VQA Score 提升 提升%
LLaVA-1.5-7B (baseline) ~30.65 - -
Ask-LLaVA-7B (SFT) 33.47 +2.82 +9.2%
Ask-LLaVA-7B (SFT+DPO) 34.98 +4.11 +13.3%
Ask-LLaVA-13B (SFT) 36.23 +4.64 +14.7%
  • DPO显著优于纯SFT,说明区分"何时问/何时答"的偏好学习很重要
  • 在三类歧义上均有提升,拼写歧义提升最大

消融实验要点

  • SFT vs SFT+DPO: DPO额外提升4%,主要改善了歧义检测的precision
  • 三类歧义的分布: 意图欠明确最常见,指代歧义次之,拼写歧义最少但最容易改善
  • 澄清问题质量: 人工评估显示Ask-LLaVA的澄清问题在忠实性、合理性和清晰度上都高于baseline
  • 与改写方法对比: 交互式澄清优于问题改写方法

亮点

  • 全新视角: 从"让VLM回答"转变为"让VLM提问"——更符合真实人机交互
  • 三类歧义分类: 系统性地总结了VQA中常见歧义类型,有理论和实践价值
  • DPO用于问/答平衡: 巧妙利用DPO教模型区分"何时该问、何时该答"
  • 自动化数据生成: 不需要人工标注歧义数据,从现有VQA数据自动构建

局限性 / 可改进方向

  • 用户反馈限制为Yes/No,真实交互中用户可能给出更丰富的自然语言反馈
  • GPT-4模拟"用户"可能与真实用户行为有差异
  • 歧义检测的recall还有提升空间——有些歧义问题模型仍然直接猜测回答
  • 仅在VQA场景验证,多轮对话/开放式生成中的歧义处理未探索

与相关工作的对比

  • vs Prasad et al.: 他们用LLM改写歧义问题,不涉及交互;Ask-LLaVA通过交互问答解决
  • vs 传统VQA: 传统VQA假设问题无歧义直接回答;ClearVQA扩展了输出空间到"回答∪提问"
  • vs Agent对话系统: Agent系统也有多轮交互,但Ask-LLaVA专门针对视觉歧义

启发与关联

  • "学会提问"的能力对Agent非常重要——当Agent不确定用户任务意图时应该追问而非猜测
  • 与Visual Evidence Prompting互补:VEP给模型更多视觉信息帮助回答,Ask-LLaVA让模型在信息不足时主动要求更多信息
  • DPO区分"问/答"的思路可以推广到Agent的"执行/确认"决策

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "教VLM提问"是全新的研究方向,ClearVQA填补了重要空白
  • 实验充分度: ⭐⭐⭐⭐ Benchmark设计+自动化数据+SFT+DPO全链路
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义、形式化和图示都极其清晰
  • 价值: ⭐⭐⭐⭐⭐ 对VLM的实际部署(面向真实用户交互)有重要指导意义