Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions¶
会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: https://github.com/jian0805/ClearVQA
领域: 多模态VLM
关键词: VQA歧义, 澄清提问, 交互式对话, 视觉问答, DPO
一句话总结¶
提出ClearVQA benchmark评估VLM处理歧义视觉问题的能力(覆盖指代歧义/意图欠明确/拼写歧义三类),并通过自动化pipeline生成歧义-澄清问题对用于SFT+DPO训练,使VLM学会"反问用户"而非猜测作答,VQA准确率相对提升13.3%。
背景与动机¶
用户向VLM提问时经常存在歧义——如"他们站在什么前面?"可能指巴士、也可能指食品车。现有VLM被训练为"直接回答"而非"追问澄清",面对歧义问题只能猜测。已有方法通过改写问题减少歧义,但忽视了VLM交互的本质——可以通过与用户对话来消除歧义。两大挑战:(1) 缺乏评估VLM通过交互消除歧义的benchmark;(2) VLM训练偏向于"回答"而非"提问"。
核心问题¶
如何让VLM学会在面对歧义视觉问题时主动提出澄清问题,而不是猜测性地给出可能错误的答案?
方法详解¶
整体框架¶
ClearVQA Benchmark + 自动化数据生成Pipeline + SFT/DPO训练 = Ask-LLaVA。
关键设计¶
- ClearVQA Benchmark: 三类VQA歧义——
- 指代歧义(Referential): 问题中的指代表达不唯一("那个物品是做什么用的?"——哪个物品?)
- 意图欠明确(Intent Underspecification): 问题信息不足以确定用户意图("她坐在哪里?"——是指城市还是具体位置?)
- 拼写歧义(Spelling): 关键词拼写错误改变含义("invent" vs "event")
-
覆盖视觉理解、跨模态推理、细粒度知识、场景文本等多种VQA场景
-
自动化数据Pipeline: 从现有VQA数据集(有明确答案)出发,用GPT-4将明确问题"模糊化"为歧义版本,同时生成理想的澄清问题(ICQ)。通过启发式过滤+人工验证确保歧义自然。
-
SFT + DPO训练:
- SFT阶段: 在歧义问题上训练模型生成澄清问题→获取用户反馈→给出正确答案;在非歧义问题上直接回答
-
DPO阶段: 构建偏好数据——歧义问题上提问优于直接答,非歧义问题上直接答优于提问——使模型学会区分何时该问、何时该答
-
推理时的交互流程: 模型接收图片+问题→判断是否歧义→歧义则提澄清问题→GPT-4模拟用户给Yes/No反馈→模型结合反馈给出最终答案。
实验关键数据¶
VQA准确率(Ask-LLaVA vs 基线):
| 模型 | VQA Score | 提升 | 提升% |
|---|---|---|---|
| LLaVA-1.5-7B (baseline) | ~30.65 | - | - |
| Ask-LLaVA-7B (SFT) | 33.47 | +2.82 | +9.2% |
| Ask-LLaVA-7B (SFT+DPO) | 34.98 | +4.11 | +13.3% |
| Ask-LLaVA-13B (SFT) | 36.23 | +4.64 | +14.7% |
- DPO显著优于纯SFT,说明区分"何时问/何时答"的偏好学习很重要
- 在三类歧义上均有提升,拼写歧义提升最大
消融实验要点¶
- SFT vs SFT+DPO: DPO额外提升4%,主要改善了歧义检测的precision
- 三类歧义的分布: 意图欠明确最常见,指代歧义次之,拼写歧义最少但最容易改善
- 澄清问题质量: 人工评估显示Ask-LLaVA的澄清问题在忠实性、合理性和清晰度上都高于baseline
- 与改写方法对比: 交互式澄清优于问题改写方法
亮点¶
- 全新视角: 从"让VLM回答"转变为"让VLM提问"——更符合真实人机交互
- 三类歧义分类: 系统性地总结了VQA中常见歧义类型,有理论和实践价值
- DPO用于问/答平衡: 巧妙利用DPO教模型区分"何时该问、何时该答"
- 自动化数据生成: 不需要人工标注歧义数据,从现有VQA数据自动构建
局限性 / 可改进方向¶
- 用户反馈限制为Yes/No,真实交互中用户可能给出更丰富的自然语言反馈
- GPT-4模拟"用户"可能与真实用户行为有差异
- 歧义检测的recall还有提升空间——有些歧义问题模型仍然直接猜测回答
- 仅在VQA场景验证,多轮对话/开放式生成中的歧义处理未探索
与相关工作的对比¶
- vs Prasad et al.: 他们用LLM改写歧义问题,不涉及交互;Ask-LLaVA通过交互问答解决
- vs 传统VQA: 传统VQA假设问题无歧义直接回答;ClearVQA扩展了输出空间到"回答∪提问"
- vs Agent对话系统: Agent系统也有多轮交互,但Ask-LLaVA专门针对视觉歧义
启发与关联¶
- "学会提问"的能力对Agent非常重要——当Agent不确定用户任务意图时应该追问而非猜测
- 与Visual Evidence Prompting互补:VEP给模型更多视觉信息帮助回答,Ask-LLaVA让模型在信息不足时主动要求更多信息
- DPO区分"问/答"的思路可以推广到Agent的"执行/确认"决策
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "教VLM提问"是全新的研究方向,ClearVQA填补了重要空白
- 实验充分度: ⭐⭐⭐⭐ Benchmark设计+自动化数据+SFT+DPO全链路
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义、形式化和图示都极其清晰
- 价值: ⭐⭐⭐⭐⭐ 对VLM的实际部署(面向真实用户交互)有重要指导意义