PhD: A ChatGPT-Prompted Visual Hallucination Evaluation Dataset¶

会议: CVPR 2025
arXiv: 2403.11116
代码: https://github.com/jiazhen-code/PhD
领域: 多模态VLM / 幻觉评估
关键词: 视觉幻觉, 多模态大语言模型, 评估基准, ChatGPT辅助构建, 二值VQA

一句话总结¶

本文提出 PhD，一个 ChatGPT 辅助构建的大规模视觉幻觉评估数据集，包含 14K+ 日常图片、750 张反常识图片和 102K VQA 三元组，通过 4 种评估模式×5 种视觉任务系统化评估多模态大语言模型的幻觉问题，在规模和挑战性上远超现有基准。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）如 LLaVA、Qwen-VL 等在多种视觉任务上表现出色，但普遍存在视觉幻觉问题——生成与视觉内容不一致的描述。视觉幻觉评估（VHE）是一个新兴且重要的研究方向。
现有痛点：(a) POPE 等先驱数据集规模小（仅 3K 个 VQA 三元组）、任务单一（仅物体识别）、hallucinatory item（hitem）选择不够图像特异化；(b) AMBER 依赖全手工标注，成本高、词汇受限、难以扩展；(c) 现有数据集性能快速饱和（图 1(d)），无法区分不断进化的模型。
核心矛盾：有效的幻觉评估需要选择图像特异化且具有挑战性的 hallucinatory item（hitem），但 hitem 选择在现有工作中很少被系统研究——POPE/ROME 基于标签共现（非图像特异化），NOPE/CIEM 完全跳过了 hitem 选择。
本文目标：构建一个大规模、多模式、多任务的 VHE 数据集，明确关联 MLLM 视觉幻觉的三大原因（视觉歧义、多模态输入不一致、反常识内容），支持细粒度的模型分析。
切入角度：利用 ChatGPT 辅助实现半自动化的数据集构建管线，通过 CLIP 对 hitem 进行视觉相关性排序，使生成的 VQA 样本具有图像特异化的挑战性。
核心 idea：围绕幻觉三大原因设计四种评估模式（PhD-base、PhD-sec、PhD-icc、PhD-ccs），覆盖五种视觉任务（物体/属性/情感/位置识别+计数），用 ChatGPT 辅助生成 hitem、问题和上下文。

方法详解¶

整体框架¶

PhD 基于 TDIUC 数据集的标注进行改造，通过四个核心模块构建：(1) 任务特异化的 hitem 选择→(2) hitem 嵌入问题生成→(3) 似是而非/错误上下文生成→(4) 反常识（CCS）图像生成。最终数据集支持 4 种模式×5 种任务=20 种评估组合，总计 102K VQA 三元组。选择 TDIUC 是因为其图像来自 MS-COCO（可能被 MLLM 训练时见过），因此模型的错误响应更可能归因于幻觉而非能力不足。

关键设计¶

ChatGPT+CLIP 辅助的 hitem 选择:
- 功能：为每张图像的每个视觉任务选择具有图像特异化挑战性的 hallucinatory item
- 核心思路：以颜色属性识别为例——(a) 用 ChatGPT 扩展颜色词汇表（手动几个→自动扩展到 35 个颜色）；(b) 从 TDIUC 问答对中用 ChatGPT 提取主语和属性（如"motorcycle"和"black"）；(c) 排除 ground truth 及同义词得到候选 hitem；(d) 用 CLIP 计算每个候选 hitem+主语组合与图像的余弦相似度，选择视觉上最具迷惑性的作为 hitem。最后进行人工抽检。共选出 1,452 个多样化且有挑战性的 hitem。
- 设计动机：CLIP 排序使得 hitem 与图像"看起来合理但实际不对"，比随机选择或共现选择更能有效诱发幻觉
四种评估模式设计:
- 功能：分别评估 MLLM 在三种幻觉原因下的表现
- 核心思路：(a) PhD-base（无上下文的日常图像问答）——测试视觉歧义引发的幻觉（原因 I）；(b) PhD-sec（附加似是而非上下文）和 PhD-icc（附加错误上下文）——测试多模态输入不一致引发的幻觉（原因 II）；(c) PhD-ccs（反常识图像问答）——测试内部知识与视觉内容冲突时的幻觉（原因 III）。似是而非上下文由 ChatGPT 生成，要求与图像有关但可能不反映当前状态；错误上下文则直接矛盾。CCS 图像由 Doubao 和 DALL-E3 生成（如"方形轮胎的汽车"）。
- 设计动机：现有数据集缺乏对不同幻觉原因的显式评估，PhD 的模式-任务结构使得可以精确定位模型的薄弱环节
PhD Index 评估指标:
- 功能：提供平衡的幻觉评估分数
- 核心思路：分别计算 Yes 问题和 No 问题的 recall，取二者的调和平均值作为 PhD Index。一个只回答 Yes（或 No）的模型得分为 0，随机猜测得分为 0.5。这确保了对肯定/否定偏好的平衡评估。
- 设计动机：避免模型通过一律回答 "Yes" 或 "No" 来获得高分，真正测试其视觉理解能力

损失函数 / 训练策略¶

本文是评估数据集，不涉及模型训练
数据集构建管线中 ChatGPT 用于生成 hitem、问题、上下文，CLIP 用于 hitem 排序，AIGC 工具用于 CCS 图像生成
人工参与主要集中在抽检验证，整体是半自动化流程

实验关键数据¶

主实验¶

开源模型整体 VHE（PhD Index）：

模型	ViT	LLM	POPE	AMBER	PhD Index
LLaVA-OneVision	SoViT-400m/14	Qwen2-72B	0.84	0.90	0.698
Molmo	-L/14	Qwen2-72B	0.84	0.85	0.690
InternVL-1.5	InternViT	InternLM2-20B	-	-	~0.65
LLaVA-1.5	CLIP-L/14	Vicuna-7B	~0.80	~0.82	0.265
LLaVA-1.5-L	CLIP-L/14	Vicuna-13B	~0.80	~0.82	0.270

消融实验¶

评估模式	代表性发现	说明
PhD-base	模型表现最好	无干扰，仅测视觉歧义
PhD-sec（似是而非上下文）	显著下降	模型容易被合理但不准确的文本误导
PhD-icc（错误上下文）	下降更大	模型强烈偏向文本信息
PhD-ccs（反常识图像）	最具挑战性	模型依赖内部知识而非视觉内容

关键发现¶

PhD 远比 POPE/AMBER 更具挑战性：LLaVA 系列在 POPE 上达 0.84、AMBER 上达 0.90，但在 PhD 上仅 0.265-0.698，有力区分模型能力
更大的 LLM 未必更好：LLaVA-1.5-L（13B）和 LLaVA-1.5（7B）在 PhD 上几乎无差异（0.270 vs 0.265），表明参数量不是决定性因素
模型普遍存在文本偏好：在 PhD-sec 和 PhD-icc 模式下性能大幅下降，说明 MLLM 的 LLM 内核倾向于信任文本输入而非视觉输入
反常识场景是最大短板：PhD-ccs 暴露了模型过度依赖训练时学到的常识知识，无法根据实际视觉内容做出判断
VCD 和 Woodpecker 等幻觉缓解方法效果有限：说明当前的缓解策略还远不足以解决幻觉问题

亮点与洞察¶

ChatGPT+CLIP 的半自动 hitem 选择管线是最大创新：ChatGPT 负责词汇扩展和文本生成（零成本扩展），CLIP 负责视觉相关性排序（确保图像特异化），人工仅做验证，实现了规模与质量的平衡。这套管线可迁移到任何需要构建对抗性评估集的场景。
四模式×五任务的结构化评估框架非常有价值：它不仅给出一个整体分数，更能精确定位模型在哪种幻觉原因和哪种视觉任务上最弱，为模型开发者提供改进方向。
故意使用 MS-COCO 图像（可能已被训练见过）的设计很巧妙：如果模型在一张"见过"的图像上还产生幻觉，更能说明问题出在幻觉而非能力不足。

局限与展望¶

依赖 TDIUC 标注：数据集的图像和初始标注来自 TDIUC/MS-COCO，可能存在标注错误影响质量
仅支持二值 VQA：Yes/No 问答虽然便于大规模评估，但无法捕捉更复杂的幻觉模式（如部分正确的描述）
CCS 图像质量不稳定：AIGC 工具生成的反常识图像质量参差，部分可能不够逼真
英语为主：TDIUC 数据和 ChatGPT 生成的文本均为英语，对多语言 MLLM 的评估覆盖不足
改进方向：扩展到开放式问答评估；增加更多高级视觉任务（如视觉推理）；构建针对特定领域（如医学）的幻觉评估集

评分¶

新颖性: ⭐⭐⭐⭐ 四模式评估框架设计和 ChatGPT+CLIP 半自动构建管线均有创新，与幻觉三原因的显式关联是独特贡献
实验充分度: ⭐⭐⭐⭐ 评估了 15 个开源模型 + 3 个商业模型 + 2 个缓解方法，模式/任务/模型多维度分析详尽
写作质量: ⭐⭐⭐⭐ 结构清晰，数据集构建管线描述详细，表格和图示信息量大
价值: ⭐⭐⭐⭐ 作为目前最大且最具挑战性的 VHE 基准，对 MLLM 社区有重要的评估参考价值