Zina: Multimodal Fine-grained Hallucination Detection and Editing¶

会议: CVPR 2026
arXiv: 2506.13130
代码: https://yuiga.dev/zina
领域: 多模态VLM
关键词: 多模态幻觉检测、细粒度编辑、VLM评估、合成数据、标签分类

一句话总结¶

Zina 提出了多模态细粒度幻觉检测与编辑任务，设计了两阶段系统（detector MLLM + reviewer MLLM）将 token 复制委托给确定性函数以简化模型负担，同时构建了 VisionHall 数据集（6.9K 人工标注 + 20K 图结构合成数据），在检测 F1 上超过 GPT-4o 达 15.8 个点。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）在图像描述等任务中经常产生幻觉——生成的文本内容偏离图像实际内容。现有的幻觉检测方法主要在粗粒度层面工作：POPE 用 Yes/No 问题检测物体幻觉，AMBER 用 CHAIR 指标衡量物体级错误率，MHalDetect 做三分类（hallucinated/non-hallucinated/partial）。

现有痛点：(1) 粗粒度方法只能判断"这句话有幻觉"，无法精确定位"哪个词/片段"出错以及"错误类型是什么"；(2) 现有方法只做检测不做修正，无法提供可操作的纠正建议；(3) 幻觉形式多样（物体错误、颜色错误、数量错误、关系错误、文字错误、事实错误），但多数方法只聚焦于物体幻觉一种类型。

核心矛盾：要做细粒度幻觉检测+编辑，需要模型同时完成三件事——精确定位 span、分类错误类型、生成修正建议。但如果像 FAVA 那样让模型逐 token 复制原句并插入标签，模型需要(i)完美复制原文、(ii)逐 token 判断标签位置、(iii)处理曝光偏差导致的级联错误。这三重负担对模型能力要求过高。

本文目标 (1) 形式化多模态细粒度幻觉检测与编辑任务，建立 6 类幻觉分类体系；(2) 设计降低任务复杂度的两阶段方法；(3) 构建高质量训练和评估数据集。

切入角度：将 token 复制这一机械性工作从语言模型中剥离，交给确定性函数处理，让模型专注于检测和编辑本身，从而大幅降低任务难度。

核心 idea：通过两阶段解耦（detector 定位 + deterministic tagging + reviewer 审核编辑），将幻觉检测与编辑的复杂度分治化。

方法详解¶

整体框架¶

给定一张图像 \(x_{\text{img}}\)、MLLM 生成的描述 \(x_{\text{desc}}\) 和人工参考描述 \(x_{\text{ref}}\)，Zina 的流程为：(1) Detector MLLM \(\mathcal{M}_{\text{det}}\) 接收三元组输入，输出幻觉 span 列表及其错误类型；(2) 确定性函数 \(\mathcal{T}\) 在原文对应位置插入标签生成带标记序列；(3) Reviewer MLLM \(\mathcal{M}_{\text{rev}}\) 逐个审核标签是否正确，并在编辑模式下生成修正建议。最终输出为幻觉 span 集合 \(\hat{\mathcal{Y}}_{\text{text}}\)、错误类型集合 \(\hat{\mathcal{Y}}_{\text{type}}\) 和编辑建议集合 \(\hat{\mathcal{Y}}_{\text{edit}}\)。

关键设计¶

确定性标签插入函数 \(\mathcal{T}\)（Deterministic Tagging）:
- 功能：将 detector 的检测结果转化为结构化标签序列
- 核心思路：\(z_i = \mathcal{T}(x_{\text{desc}}, h_{\text{text}}^{(i)}, h_{\text{type}}^{(i)})\)——给定原始描述、幻觉 span 和错误类型，确定性地在 span 前后插入对应类型的开闭标签（如 <object>books</object>）。这完全是字符串操作，不涉及模型推理
- 设计动机：前人方法（如 FAVA）让模型自己逐 token 生成标签，一旦某处出错（如遗漏一个字母），后续所有标签结构都可能崩塌。将这一过程确定化，消除了自回归生成中的曝光偏差问题
Detector-Reviewer 两阶段架构:
- 功能：将幻觉检测的复杂认知任务分解为两个更简单的子问题
- 核心思路：Detector \(\mathcal{M}_{\text{det}}\)（基于 Qwen2.5-VL-72B）只负责识别"哪些 span 有问题+什么类型"，不需要管标签格式和复制原文；Reviewer \(\mathcal{M}_{\text{rev}}\)（同样基于 Qwen2.5-VL-72B）接收已打好标签的序列，只需判断"这个标签位置和类型是否正确"+生成修正文本，相当于一个二次确认和编辑器。两个模型都用交叉熵训练
- 设计动机：单模型同时做检测+定位+编辑的认知负荷太重，拆成两步后每步的复杂度显著降低。类似 chain-of-thought 的分步思考策略
基于图的合成训练数据生成（Graph-based Augmentation）:
- 功能：生成大量带错误依赖关系的训练样本
- 核心思路：分为两个子模块：(a) Error Insertion (EI)——用 o3-mini 向无幻觉描述中注入错误，同时以 XML 格式记录错误间的依赖关系（如"提到了不存在的苹果"→"错误描述苹果与其他物体的关系"）；(b) Graph-based Augmentation (GraphAug)——将错误依赖建模为有向图，检测并删除环得到 DAG，然后随机概率 \(p\) 选择节点及其后代进行剪枝，生成不同错误组合的训练样本
- 设计动机：真实幻觉不是独立的——一个错误物体会引发关于该物体的一系列连锁错误。简单随机注入错误无法模拟这种依赖结构，导致训练数据分布与真实分布不匹配

损失函数 / 训练策略¶

Detector 和 Reviewer 均使用标准交叉熵损失训练。Detector 训练在合成数据上，Reviewer 训练在经 Detector 标注后的数据上。评估使用改进的 BERT-F1 和 CLIP-F1 指标（基于嵌入相似度而非精确匹配计算 F1），因为幻觉修正存在多种有效表达形式。

实验关键数据¶

主实验（VisionHall 数据集）¶

方法	Detection F1↑	CLIP-S↑	PAC-S↑	BERT-F1↑	CLIP-F1↑
GPT-4o	29.37	65.58	73.86	24.89	30.19
Qwen2.5-VL-72B	21.31	64.38	72.99	18.85	23.67
LLaVA-OV-72B	25.70	65.74	73.91	20.81	26.81
Llama-3.2-90B	16.92	65.28	73.54	14.56	17.62
Zina (Ours)	45.15	66.08	74.36	44.02	50.39

消融实验¶

配置	Detection F1	BERT-F1	CLIP-F1	说明
(i) 无 Reviewer，直接 Qwen2.5-VL-72B 3-shot	21.91	15.54	17.88	基线
(ii) +Reviewer (32B)	32.55	27.52	34.66	加 Reviewer 提升 +10.6
(iii) +Reviewer (LLaVA-OV-72B)	34.41	31.39	36.10	换更大 backbone
(iv) Zina, n=1	43.25	42.53	49.54	few-shot 数影响不大
(vi) Zina, n=3 (Full)	45.15	44.02	50.39	完整模型

关键发现¶

Reviewer 的引入贡献最大：从配置(i)到(ii)，F1 从 21.91 跳到 32.55，说明两阶段解耦策略是性能提升的核心
GPT-4o 在细粒度检测上表现不佳：即使是最强闭源模型也只有 29.37 F1，说明这个任务对当前 MLLM 仍然很难
错误类型分布分析：Object 幻觉最多（~30-40%），Fact 幻觉最少（<5%）。不同模型的错误分布差异明显——GPT-4o 的 Text 幻觉比例（12.27%）高于 Qwen-7B（14.96%）
在域外数据集 MHaluBench 上也表现出色：Zina 在 10 个指标中的 9 个上超过 baseline，证明方法的泛化能力

亮点与洞察¶

"将 token 复制委托给确定性函数"这一设计思路极为巧妙：它本质上是将语言模型从"格式遵循"的负担中解放，让其专注于"内容理解"。这个思路不仅适用于幻觉检测，也可以推广到任何需要保持原文结构同时做局部修改的任务（如语法纠错、事实核查）
图结构依赖的错误注入是另一个亮点：通过 DAG 建模错误间的因果关系，使合成数据更贴近真实幻觉分布。DAG 剪枝策略天然提供了数据多样性
BERT-F1 和 CLIP-F1 指标解决了编辑评估中"多种正确答案"的问题，比精确匹配 F1 更合理

局限与展望¶

依赖人工参考描述：任务定义假设有可靠的 reference caption，在实际应用中获取成本高。未来可以探索无参考检测
6 类幻觉分类可能不够全面：例如缺少"因果关系错误"（事件A导致事件B的因果推断）和"时态错误"（过去/现在/将来混淆）
Detector 和 Reviewer 使用相同架构（Qwen2.5-VL-72B）：72B 模型的推理成本高，能否用更小模型+蒸馏达到接近效果值得探索
VisionHall 数据集基于 DCI 参考描述：DCI 的图像多为日常场景，对特定领域（如医学图像、遥感图像）的幻觉检测覆盖不足

评分¶

新颖性: ⭐⭐⭐⭐ 任务定义新颖（细粒度检测+编辑），确定性标签插入和图结构数据生成是创新点
实验充分度: ⭐⭐⭐⭐⭐ 对比了 10+ 个 baseline，VisionHall + MHaluBench 双数据集验证，消融分析充分
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，动机推导自然，图表质量高
价值: ⭐⭐⭐⭐ 为 MLLM 幻觉治理提供了精细化工具，VisionHall 数据集有持久价值