Acknowledging Focus Ambiguity in Visual Questions¶

会议: ICCV 2025
arXiv: N/A (CVF OpenAccess)
代码: 无 (数据集公开于 https://vizwiz.org/)
领域: multimodal_vlm
关键词: 视觉问答, 焦点歧义, 数据集, 视觉定位, 多模态基准

一句话总结¶

首次定义并系统研究视觉问答中的焦点歧义（focus ambiguity）问题——当问题中的语言描述可能指向图像中多个合理区域时，现有 VQA 系统完全忽略了这种歧义。作者构建了 VQ-FocusAmbiguity 数据集（5,500 样本 + 12,880 实例分割），并证明现代模型在识别和定位焦点歧义方面表现很差。

研究背景与动机¶

VQA（视觉问答）研究已经考虑了多种歧义来源——如答案的主观性、粒度差异等——但没有一项工作考虑过问题本身中语言描述指向位置的歧义性。

为什么这很重要？ 举一个具体例子：一位盲人用户拍照后问"What is the cleaning product?"，如果图片中同时出现了洗洁精和窗户清洁剂，VQA 系统应该能意识到这个问题存在焦点歧义，而不是武断地只回答一个。错误的回答可能导致严重后果——比如盲人误用窗户清洁剂来洗碗。

核心区分：问题定位 vs 答案定位。作者强调了一个关键洞察：问题的焦点区域和答案的视觉证据可以不同。例如，问"What is above the mirror?"时，问题焦点是镜子（mirror），而答案证据是镜子上方的物体。在 330 个 AnswerTherapy 样本中，79% 的歧义问题和 36% 的非歧义问题存在问题定位与答案定位的不一致。这说明将问题焦点作为独立研究对象是必要的。

方法详解¶

整体框架¶

本文的核心贡献是数据集构建 + 任务定义 + 基准测试，而非提出新模型。工作包含三个层面：

VQ-FocusAmbiguity 数据集：5,500 个视觉问题，每个配有完整的焦点区域分割标注
两个新任务：（a）识别问题是否存在焦点歧义，（b）定位问题的所有可能焦点区域
现代模型基准测试：评估 4 个基础模型在任务 (a) 上的表现，3 个方法/管线在任务 (b) 上的表现

关键设计¶

数据集构建——四个多样化来源：

数据来源于四个不同的数据集，覆盖了多样化的图像内容和问题类型：

数据源	图像特征	问题来源	非歧义比例
PACO (COCO 2017)	复杂场景，多物体	合成 + 标注者	50% (2,272)
MSRA-B	单前景物体	合成（"What is this?"变体）	100% (626)
AnswerTherapy-VQAv2	COCO场景	人工创建	47% (82)
AnswerTherapy-VizWiz	视障人士拍摄	视障用户语音	53% (83)

为什么需要四个来源？ 这是为了确保数据在以下维度上的多样性：（1）单物体 vs 复杂场景，（2）明眼人 vs 视障人士拍摄，（3）不同位置和大小的目标物体，（4）打字问题 vs 口语转录问题。

PACO 标注流程的精心设计： - 标注界面展示图像及所有可用分割 - 先提供 AI 生成的候选问题供选择（标注者可选择：从头写、直接采用、修改后采用） - 然后标注者选择问题可能指向的所有分割区域 - 对于歧义问题，标注者自主创作的比例最高（55%），说明 AI 较难生成好的歧义问题

歧义原因分析：通过对 265 个歧义样本的人工编码，发现两个主要原因： - 相同类别多实例（61.5%）：如"What is next to the mirror?" 而图中有多面镜子 - 不同类别多实例（31%）：如"What is this?" 指向不确定的物体，多见于视障用户的模糊提问

数据集划分——支持 zero/few-shot 学习：训练集和验证集各 70 个样本（从每个来源随机采样 10 个歧义 + 10 个非歧义），测试集 5,360 个样本。这反映了当前 SOTA 通常来自基础模型的 zero/few-shot 设置这一趋势。

损失函数 / 训练策略¶

本文不训练新模型，而是在两个任务上对现有模型进行系统评测：

任务一：焦点歧义识别（二分类） - 模型：GPT-4o、InternVL2-76B、Qwen2.5-VL-7B、Molmo-7B - 5 种提示策略：ZS、ZS-CoT、ZS-ECoT（结构化推理引导）、FS、FS-ECoT - 评估指标：Accuracy、Weighted F1、Positive Rate、Undecided Rate

任务二：焦点区域定位（实例分割） - 模型方案：GLaMM（直接分割）、GPT-4o+GLaMM（描述后分割）、Molmo+SAM（点定位后分割） - 评估指标：mAP、Union IoU、Max IoU

实验关键数据¶

主实验¶

焦点歧义识别结果（所有百分比）：

模型	最佳 Prompt	Accuracy	F1	Positive Rate
GPT-4o (>200B)	ZS-CoT	69.6	69.8	53.3
InternVL2 (76B)	ZS-CoT	56.7	54.8	27.9
Qwen2.5-VL (7B)	ZS-ECoT	65.5	65.3	59.0
Molmo (7B)	ZS-CoT	56.9	57.1	48.1

焦点区域定位结果：

方法	最佳 Prompt	mAP	Union IoU	Max IoU
GLaMM	ZS	13.01	41.90	43.69
GPT-4o+GLaMM	FS	14.24	40.97	47.83
Molmo+SAM	ZS-CoT	24.3	36.2	45.4

消融实验¶

问题特征与歧义性的关系分析：

特征	歧义问题	非歧义问题	说明
平均词数	较少	较多	更多单词提供更多消歧上下文
含复数名词比例	4.7%	23.8%	复数形式天然减少歧义
分割区域数量中位数	3	1（定义）	歧义问题平均 4 个焦点区域
问题-答案定位匹配	21% 匹配	64% 匹配	歧义问题更需要独立的问题定位

CoT 提示策略的提升效果： - Molmo-7B：ZS-CoT 比 ZS 提升 18.4 pp - Qwen2.5-VL：ZS-ECoT 比 ZS 提升 8.3 pp - 7B 模型通过 CoT 可达到甚至超越 76B InternVL2

关键发现¶

所有模型表现都很差：最佳准确率仅 69.6%（GPT-4o），说明焦点歧义是一个未被解决的难题
训练数据很重要：Qwen2.5-VL 和 Molmo 在 PixMo 数据集上训练了区域级计数和指向任务，这与歧义识别天然相关（计数单区域 = 无歧义，多区域 = 有歧义）
InternVL2 虽然 76B 但表现最差：缺乏区域级训练数据，且一致偏向预测"无歧义"（Positive Rate 最低仅 27.9%）
定位任务中 Molmo+SAM 的 mAP 最高：因为 Molmo 倾向指向多个区域，但 Union IoU 反而低，因为 SAM 的点提示分割不够完整
部件分割极为困难：PACO 数据中模型定位物体部件的能力远差于完整物体

亮点与洞察¶

问题本身作为歧义源的首次系统研究：将 VQA 歧义研究从"答案歧义"扩展到"问题焦点歧义"，这是一个重要的概念区分
实用价值高：直接关联到视障用户的实际使用场景，歧义感知的 VQA 系统可以交互式引导用户消歧
数据集设计精巧：四个来源覆盖不同场景，nearly balanced 的歧义/非歧义分布，支持 zero/few-shot 评估范式
对 CoT 的深入分析：不仅测了 CoT 有效性，还发现训练数据和提示策略的互补重要性

局限与展望¶

数据规模有限：5,500 样本可能不足以训练领域特定模型，尤其是训练集仅 70 个样本
仅限英文问题：跨语言的焦点歧义可能有不同特性
未提出解决方案模型：仅做基准测试，未设计专门的歧义感知 VQA 模型
两步管线的级联误差：GPT-4o+GLaMM 和 Molmo+SAM 的两阶段方法存在误差传播问题
视频和多模态扩展：焦点歧义在视频 QA、多模态对话中同样存在，值得进一步探索

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐