FIHA: Autonomous Fine-grained Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs¶

会议: ACL 2025
arXiv: 2409.13612
代码: https://github.com/confidentzzzs/FIHA (有)
领域: multimodal_vlm
关键词: 幻觉评估, 大视觉语言模型, Davidson场景图, 无LLM评估, 细粒度评估

一句话总结¶

本文提出 FIHA，一个无需 LLM 和人工标注的自动化细粒度幻觉评估框架，通过从图像和描述中提取实体、属性和关系生成 Q&A 对，并引入 Davidson 场景图（DSG）建模问题间的依赖关系，构建了 FIHA-v1 基准，全面评估了主流大视觉语言模型的幻觉水平。

研究背景与动机¶

大视觉语言模型（LVLMs）如 LLaVA、MiniGPT-4 在视觉理解方面展现了强大能力，但普遍存在幻觉问题——模型可能描述图像中不存在的物体、错误的属性或关系。准确评估模型的幻觉程度对于提升模型可信度至关重要。

现有痛点：当前幻觉评估方法面临两个核心挑战：

忽视问题间的依赖关系：现有方法独立评估每个问题，但实际上问题之间存在逻辑依赖。例如，如果模型连"图中是否有自行车"都回答错误，那么"自行车是什么颜色"这类依赖性问题的回答就没有意义。忽视这种依赖会导致评估结果不可靠——弱模型可能因为猜对了依赖性问题而获得虚高分数。

依赖昂贵的人工标注或 LLM：大多数现有基准需要人工标注（如 AMBER）或依赖 LLM 生成 Q&A 对（如 Hal-Eval），成本高且可扩展性差。

核心矛盾：需要一个既全面覆盖多种幻觉类型（物体、属性、关系）、同时成本低且可靠的评估框架。

切入角度：利用成熟的视觉工具（目标检测、关系提取）自动生成 Q&A 对，避免对 LLM 和人工标注的依赖；引入 DSG 建模问题依赖结构，提升评估可靠性。

方法详解¶

整体框架¶

FIHA 提供两条并行的 Q&A 生成路径：基于图像、基于描述文字。两条路径分别提取实体信息，生成多样化的问题，最终通过 DSG 组织问题间的依赖关系后送入模型评估。

关键设计¶

基于描述的信息提取：
- 如无现成描述，使用 BLIP-2 为图像生成描述（选择小模型以减少幻觉）
- 用 SpaCy 词性标注提取物体及其属性（颜色、数量、大小等），得到 \(G^C_{O,A} = \{o_1:A_1, \ldots, o_n:A_n\}\)
- 用 Stanford CoreNLP 提取物体间关系 \(G^C_R = \{R_1(o^1_{R_1}, o^2_{R_1}), \ldots\}\)
- 设计动机：描述文字提供了人类视角的信息总结，提取方法成熟可靠
基于图像的信息提取：
- 用 Grounding DINO 进行目标检测，提取物体和属性（颜色、大小、形状）
- 用 RelTR 生成稀疏场景图，提取物体间的空间和动作关系
- 设计动机：图像包含比描述更丰富的细节信息，两条路径互补覆盖
多类型 Q&A 对生成：
- Yes-No 问题：检查物体存在性（"图中是否有{obj}？"）和关系（"{obj1}附近是否有{obj2}？"）
- Wh-问题：使用 what/who/which/where/how many 等疑问词，要求自由文本回答（不超过三个词）
- 否定问题：将真实物体/属性/关系替换为不存在的对象，检测模型是否产生虚假确认
- 设计动机：多类型问题比仅用 Yes-No 问题提供更全面的幻觉评估
Davidson 场景图（DSG）依赖建模：
- 将 Q&A 对组织为树状结构，物体存在性问题为根节点，相关属性和关系问题为叶节点
- 评估时先判断根节点：如果物体存在性回答错误，直接判定所有叶节点问题为幻觉
- 设计动机：避免弱模型通过猜对依赖性问题获得虚高分数，使评估更严格可靠

实验关键数据¶

主实验 — MSCOCO 数据集（图像生成的Q&A）¶

模型	Accuracy	Precision	Recall	F1	F1(Gen)
mPLUG-Owl	42.1	70.2	61.4	43.7	15.2
MiniGPT-4	23.5	27.5	22.2	22.1	21.6
LLaVA-1.5-7B	77.8	77.0	65.9	67.7	21.4
LLaVA-1.5-13B	78.9	80.9	66.4	68.3	20.9
InstructBLIP	84.7	83.3	78.6	80.4	21.8
GPT-4V	87.2	81.4	86.3	85.5	25.2

消融实验 — DSG 引入后的性能变化¶

模型	Acc.降幅	F1降幅	说明
GPT-4V	6.0%	9.9%→8.4%	强模型受 DSG 影响最小，显示更强的上下文推理
LLaVA-1.5-13B	2.7%	3.6%	较少的级联错误
mPLUG-Owl	29.6%	28.7%	弱模型根节点错误频繁传播
MiniGPT-4	62.6%	61.2%	最弱模型暴露出大量基础幻觉

细粒度结果（MSCOCO Caption-based）¶

幻觉类型	GPT-4V F1	InstructBLIP F1	说明
物体存在性	88.6	84.2	模型普遍表现较好
属性识别	79.8	55.6	颜色/大小等属性判断难度显著上升
关系判断	58.3	52.1	最具挑战性，涉及多物体交互

关键发现¶

GPT-4V 在所有维度上表现最优，InstructBLIP 紧随其后
所有模型在关系幻觉上表现最差（GPT-4V 的 F1 仅 58.3%），因为关系涉及多个物体
属性幻觉是中等难度，模模型在雾化图像上性能显著下降
模型参数量越大表现越好（LLaVA-1.5-13B 优于 7B）
FIHA 生成的 Q&A 对人工验证准确率达 96-98.2%

亮点与洞察¶

首个同时做到 LLM-free 和 Annotation-free 的 LVLM 幻觉评估框架，成本极低可大规模部署
DSG 依赖建模是一个简单但有效的创新，暴露了弱模型被传统评估高估的问题
同时支持判别式和生成式两种题型评估，覆盖面比此前任何工作都广
在雾化图像上的测试展示了评估框架对噪声图像的鲁棒性分析

局限与展望¶

信息提取依赖 Grounding DINO 和 RelTR 等工具的准确性，工具本身的错误会传播到评估中
目前仅测试了 7 个模型，缺少更新的模型如 LLaVA-Next、Qwen-VL 等
Wh-问题使用 BERTScore 评估，对自由文本回答的匹配可能不够精确
否定问题的构造基于随机替换，可能不够困难（模型容易通过排除法作答）
未考虑更复杂的幻觉类型，如时间关系、因果推理等

评分¶

新颖性: ⭐⭐⭐⭐ DSG 依赖建模和无 LLM 评估是亮点，但信息提取方法本身不够新颖
实验充分度: ⭐⭐⭐⭐ 多数据集、多模型、细粒度分析和可靠性验证都很到位，但模型覆盖可更广
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，但部分符号定义略显冗余
价值: ⭐⭐⭐⭐ 提供了实用的低成本幻觉评估工具，对 LVLM 开发者有直接价值