VQ-FocusAmbiguity: Acknowledging Focus Ambiguity in Visual Questions¶

会议: ICCV 2025
arXiv: 2501.02201
代码: https://vizwiz.org/tasks-and-datasets/focus-ambiguity-in-visual-questions/
领域: 多模态VLM
关键词: 视觉问答, 焦点歧义, 视觉定位, 歧义检测, VQA基准

一句话总结¶

首次关注VQA中的"焦点歧义"问题——当问题中的语言可以指向图像中多个合理区域时，构建了5500个样本的VQ-FocusAmbiguity数据集，为歧义感知VQA系统的开发奠定基础。

研究背景与动机¶

领域现状：VQA系统已能理解和回答视觉问题，但没有任何已发表的工作考虑过问题焦点的歧义性。

现有痛点：当用户问"这个清洁产品是什么？"而图像中有多种清洁产品时，VQA系统可能给出错误答案，对盲人用户可能产生严重后果（如用窗户清洁剂洗碗）。

核心 idea：构建首个面向焦点歧义的VQA数据集，其中每个歧义问题都标注了所有可能指向的图像区域（实例分割），支持两个新任务：识别问题是否有焦点歧义 + 定位所有可能的焦点区域。

方法详解¶

数据集构建¶

来源于4个数据集（PACO、MSRA-B、VQAv2、VizWiz-VQA），5500个视觉问题+12880个实例分割。歧义(2437)与非歧义(3063)样本近均匀分布。AI生成候选问题+人工审核修正。

关键发现¶

非歧义问题更长（均值更高），因为额外词汇提供了消歧上下文
非歧义问题更常包含复数名词（23.8% vs 4.7%），复数形式天然允许多区域
79%歧义问题的焦点定位与答案定位不同（如"镜子上面是什么？"→焦点是镜子，答案是镜子上面的物体）

实验关键数据¶

任务	最佳模型	性能	说明
歧义识别	GPT-4o	中等	二分类
焦点定位	Molmo-7B	较低	定位所有区域

关键发现¶

现代模型在两个任务上表现均较差，证明数据集具有挑战性
焦点定位与答案定位的解耦是理解VQA推理过程的关键步骤

数据集统计¶

维度	歧义	非歧义
样本数	2437	3063
平均问题长度(词)	8.2	10.5
复数名词比例	4.7%	23.8%
平均焦点区域数	2.8	1.0
焦点≠答案定位比例	79%	N/A

亮点与洞察¶

"焦点歧义"问题的提出有深远意义：AI助手应主动告知用户存在歧义，而非猜测回答
将问题与答案的定位解耦是重要洞察，为VQA推理提供了中间步骤

局限与展望¶

数据集规模较小（5500样本），可能不覆盖所有场景。
仅考虑了2D图像中的空间歧义，未扩展到3D或视频场景。
歧义识别依赖于文本和视觉的联合理解，当前模型在两个任务上都表现较差。
AI标注生成的候选问题可能不够自然，与真实用户提问方式有差异。
焦点定位与答案定位的解耦虽是重要洞察，但如何利用这一中间步骤提升VQA性能未探索。
未分析歧义类型的细分——不同歧义源（词汇、指代、量词）可能需要不同的处理策略。
未探索主动消歧策略（如让模型反问用户）。
对盲人用户的实际应用场景需要更多用户研究验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个关注VQA焦点歧义的工作
实验充分度: ⭐⭐⭐⭐ 数据分析深入，模型评测全面
写作质量: ⭐⭐⭐⭐ 动机有力，分析细致
价值: ⭐⭐⭐⭐ 对AI安全和无障碍辅助有直接意义

VQ-FocusAmbiguity: Acknowledging Focus Ambiguity in Visual Questions¶

一句话总结¶

研究背景与动机¶

方法详解¶

数据集构建¶

关键发现¶

实验关键数据¶

关键发现¶

数据集统计¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

补充讨论¶

评分¶

相关论文¶