Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions¶

会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
代码: https://github.com/jian0805/ClearVQA
领域: 多模态VLM
关键词: VQA歧义, 澄清提问, 交互式对话, 视觉问答, DPO

一句话总结¶

提出ClearVQA benchmark评估VLM处理歧义视觉问题的能力（覆盖指代歧义/意图欠明确/拼写歧义三类），并通过自动化pipeline生成歧义-澄清问题对用于SFT+DPO训练，使VLM学会"反问用户"而非猜测作答，VQA准确率相对提升13.3%。

背景与动机¶

用户向VLM提问时经常存在歧义——如"他们站在什么前面？"可能指巴士、也可能指食品车。现有VLM被训练为"直接回答"而非"追问澄清"，面对歧义问题只能猜测。已有方法通过改写问题减少歧义，但忽视了VLM交互的本质——可以通过与用户对话来消除歧义。两大挑战：(1) 缺乏评估VLM通过交互消除歧义的benchmark；(2) VLM训练偏向于"回答"而非"提问"。

核心问题¶

如何让VLM学会在面对歧义视觉问题时主动提出澄清问题，而不是猜测性地给出可能错误的答案？

方法详解¶

整体框架¶

ClearVQA Benchmark + 自动化数据生成Pipeline + SFT/DPO训练 = Ask-LLaVA。

关键设计¶

ClearVQA Benchmark: 三类VQA歧义——
指代歧义(Referential): 问题中的指代表达不唯一（"那个物品是做什么用的？"——哪个物品？）
意图欠明确(Intent Underspecification): 问题信息不足以确定用户意图（"她坐在哪里？"——是指城市还是具体位置？）
拼写歧义(Spelling): 关键词拼写错误改变含义（"invent" vs "event"）
覆盖视觉理解、跨模态推理、细粒度知识、场景文本等多种VQA场景
自动化数据Pipeline: 从现有VQA数据集（有明确答案）出发，用GPT-4将明确问题"模糊化"为歧义版本，同时生成理想的澄清问题(ICQ)。通过启发式过滤+人工验证确保歧义自然。
SFT + DPO训练:
SFT阶段: 在歧义问题上训练模型生成澄清问题→获取用户反馈→给出正确答案；在非歧义问题上直接回答
DPO阶段: 构建偏好数据——歧义问题上提问优于直接答，非歧义问题上直接答优于提问——使模型学会区分何时该问、何时该答
推理时的交互流程: 模型接收图片+问题→判断是否歧义→歧义则提澄清问题→GPT-4模拟用户给Yes/No反馈→模型结合反馈给出最终答案。

实验关键数据¶

VQA准确率（Ask-LLaVA vs 基线）:

模型	VQA Score	提升	提升%
LLaVA-1.5-7B (baseline)	~30.65	-	-
Ask-LLaVA-7B (SFT)	33.47	+2.82	+9.2%
Ask-LLaVA-7B (SFT+DPO)	34.98	+4.11	+13.3%
Ask-LLaVA-13B (SFT)	36.23	+4.64	+14.7%

DPO显著优于纯SFT，说明区分"何时问/何时答"的偏好学习很重要
在三类歧义上均有提升，拼写歧义提升最大

消融实验要点¶

SFT vs SFT+DPO: DPO额外提升4%，主要改善了歧义检测的precision
三类歧义的分布: 意图欠明确最常见，指代歧义次之，拼写歧义最少但最容易改善
澄清问题质量: 人工评估显示Ask-LLaVA的澄清问题在忠实性、合理性和清晰度上都高于baseline
与改写方法对比: 交互式澄清优于问题改写方法

亮点¶

全新视角: 从"让VLM回答"转变为"让VLM提问"——更符合真实人机交互
三类歧义分类: 系统性地总结了VQA中常见歧义类型，有理论和实践价值
DPO用于问/答平衡: 巧妙利用DPO教模型区分"何时该问、何时该答"
自动化数据生成: 不需要人工标注歧义数据，从现有VQA数据自动构建

局限性 / 可改进方向¶

用户反馈限制为Yes/No，真实交互中用户可能给出更丰富的自然语言反馈
GPT-4模拟"用户"可能与真实用户行为有差异
歧义检测的recall还有提升空间——有些歧义问题模型仍然直接猜测回答
仅在VQA场景验证，多轮对话/开放式生成中的歧义处理未探索

与相关工作的对比¶

vs Prasad et al.: 他们用LLM改写歧义问题，不涉及交互；Ask-LLaVA通过交互问答解决
vs 传统VQA: 传统VQA假设问题无歧义直接回答；ClearVQA扩展了输出空间到"回答∪提问"
vs Agent对话系统: Agent系统也有多轮交互，但Ask-LLaVA专门针对视觉歧义

启发与关联¶

"学会提问"的能力对Agent非常重要——当Agent不确定用户任务意图时应该追问而非猜测
与Visual Evidence Prompting互补：VEP给模型更多视觉信息帮助回答，Ask-LLaVA让模型在信息不足时主动要求更多信息
DPO区分"问/答"的思路可以推广到Agent的"执行/确认"决策

评分¶

新颖性: ⭐⭐⭐⭐⭐ "教VLM提问"是全新的研究方向，ClearVQA填补了重要空白
实验充分度: ⭐⭐⭐⭐ Benchmark设计+自动化数据+SFT+DPO全链路
写作质量: ⭐⭐⭐⭐⭐ 问题定义、形式化和图示都极其清晰
价值: ⭐⭐⭐⭐⭐ 对VLM的实际部署（面向真实用户交互）有重要指导意义