Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling¶
会议: NeurIPS 2025
arXiv: 2504.13169
代码: 有(项目页面/GitHub/HuggingFace)
领域: 多模态VLM / AI安全
关键词: VLM幻觉, 自验证, 回溯纠正, 置信度token, 生成式自校正
一句话总结¶
提出REVERSE框架——首次在单一VLM内统一了生成、验证和纠正三个阶段:通过引入、(置信)、(不置信)三个特殊token训练幻觉感知模型,推理时当概率超过阈值就回溯到上一个重新生成,在CHAIR-MSCOCO上降低12%、HaloQuest上降低34%的幻觉率。
背景与动机¶
VLM幻觉缓解方法分两大类:(1) 生成调整(VCD/OPERA/DoLA等),修改解码行为但无法纠正已生成的错误token;(2) 事后验证(Woodpecker/LURE),用外部模型检查和改写但需要复杂多模型pipeline。两者的根本局限:生成类无法纠错,验证类无法自我纠错。
核心问题¶
如何让VLM在生成过程中实时验证自己是否在幻觉,并即时回溯纠正——不需要外部模型?
方法详解¶
整体框架¶
训练+推理两阶段:训练阶段用1.3M半合成数据教VLM标记哪些短语可信/不可信;推理阶段实时监控概率,超阈值则回溯+重采样纠正。
关键设计¶
- 三个置信度特殊token:
<SPAN>: 标记关键短语开始</CN>: 标记置信(confident)短语结束——这是"存档点"-
</UN>: 标记不置信(unconfident/hallucinated)短语结束——触发回溯 正确短语标记为<SPAN>a young girl</CN>,幻觉短语标记为<SPAN>a frisbee</UN> -
1.3M半合成训练数据: 从LLaVA-v1.5-665k出发,用规则+GPT-4o-mini生成负样本(错误答案/幻觉描述)。3.8M正确QA对+2.9M幻觉QA对,总计6.8M轮。负样本在后立即终止(防止继续生成无意义文本)。
-
回溯式重采样(Retrospective Resampling): 推理时:
- 正常生成,监控每个token后出现的概率
- 当P() > τ(阈值),触发回溯到最近的位置
- 用两种策略纠正:(a) 提高温度做拒绝采样;(b) 将潜在幻觉短语作为Hint注入query重写
-
可迭代——如果纠正后仍然幻觉,继续回溯
-
幻觉感知训练损失: 修改交叉熵损失,同时训练三个目标:正常文本生成+短语置信度分类+幻觉token概率抑制。
实验关键数据¶
CHAIR-MSCOCO (LLaVA-v1.5-7B):
| 方法 | CHAIRi↓ | CHAIRs↓ |
|---|---|---|
| 无处理 | 15.4 | 50.0 |
| VCD | 14.9 | 48.6 |
| OPERA | 14.6 | 47.8 |
| HA-DPO | 11.0 | 38.2 |
| EOS | 12.3 | 40.2 |
| Woodpecker | 14.8 | 45.8 |
| REVERSE(τ=0.003) | 10.3 | 37.0 |
| REVERSE(τ=0.0003) | 6.1 | 13.6 |
- τ=0.0003时CHAIRs从50.0降到13.6——幻觉率降低超72%!
- 在LLaVA-MORE和Qwen2.5-VL上也有效
- HaloQuest上提升34%
消融实验要点¶
- τ阈值: 较低的τ更激进地检测幻觉,CHAIRs极低但可能过度拒绝(Cover下降)
- 拒绝采样 vs query重写: 两者都有效,query重写对complex hallucination更好
- 迭代次数: 1-2次回溯最优,过多迭代导致output过短
- 训练数据: 同时包含正负样本比只用正样本显著更好
- 通用benchmark: 在MMBench/POPE等通用任务上性能保持或微升
亮点¶
- 首次统一生成-验证-纠正: 不需要外部模型,VLM自己就是generator+verifier+corrector
- 优雅的token设计:
</CN>作为"存档点"、</UN>作为"幻觉警报"——概念直观、实现简洁 - 回溯机制: 类似游戏存档/读档——检测到问题就"回到上一个存档点重来"
- 可控的精度-召回权衡: 通过τ阈值灵活控制幻觉检测的激进程度
局限性 / 可改进方向¶
- 低τ时虽然幻觉大幅减少,但Cover(覆盖率)也下降——模型倾向于"少说少错"
- 回溯+重采样增加推理延迟(每次回溯需要部分重新生成)
- 概率的校准依赖训练数据分布,换模型或域外可能失灵
- 1.3M训练数据的构建依赖GPT-4o-mini,有数据偏差风险
- 仅在captioning和简单QA验证,复杂推理任务的效果未知
与相关工作的对比¶
- vs VCD/OPERA/DoLA(生成调整): REVERSE在检测幻觉后可以纠正,它们不能
- vs Woodpecker(事后验证): REVERSE自己做验证不需要外部GPT-4,且可以即时纠正而非事后改写
- vs VHR(注意力头增强): VHR在attention层面增强视觉,REVERSE在output层面检测和纠正——互补
- vs Visual Evidence Prompting: VEP添加外部视觉信息预防幻觉,REVERSE检测并纠正幻觉——也互补
启发与关联¶
- 置信度token的设计可以推广到Agent——Agent执行操作时标记和,不确定时回溯
- REVERSE的回溯机制与VReST的MCTS互补:VReST在推理空间广度探索,REVERSE在生成过程中纵深纠错
- TVC(视觉遗忘缓解)+REVERSE可能形成强力组合:TVC在推理中重注入视觉信息+REVERSE在生成中检测纠错
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 统一生成-验证-纠正是全新范式,置信度token和回溯机制设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ 3个VLM backbone、6个benchmark、详细消融
- 写作质量: ⭐⭐⭐⭐⭐ Figure 1和3的示意图极其清晰
- 价值: ⭐⭐⭐⭐⭐ 对VLM幻觉缓解方向有里程碑意义