跳转至

Controlling Multimodal LLMs via Reward-guided Decoding

会议: ICCV 2025
arXiv: 2508.11616
代码: 无
领域: 多模态VLM / 幻觉缓解 / 推理时对齐
关键词: reward-guided decoding, hallucination mitigation, visual grounding, controllable generation, multimodal reward model

一句话总结

提出MRGD(Multimodal Reward-Guided Decoding),通过训练一个基于PaliGemma的物体幻觉奖励模型和一个基于OWLv2的物体召回奖励模型,在MLLM推理时通过线性加权组合两个奖励来逐句搜索最优候选输出,在CHAIR上将LLaVA-1.5的CHAIRi从15.05降至4.53(降70%)且支持精度-召回率的动态可控权衡。

研究背景与动机

  1. 领域现状:MLLM的幻觉问题主要通过SFT、RLHF微调和prompt工程来缓解,但这些方法在推理时缺乏细粒度的可控性。SFT和RLHF一旦完成,用户无法在推理时调节模型行为。
  2. 现有痛点:用户需求多样化——视障用户需要高精度(不能幻觉)、合成数据用户需要高召回(尽可能描述更多物体)。现有方法无法让用户在推理时动态权衡这两个目标。LLM领域的reward-guided decoding已经证明有效,但多模态场景下缺乏相关工作。
  3. 核心矛盾:MLLM生成中存在固有的物体精度vs召回率权衡——减少幻觉往往导致模型更保守从而遗漏物体,而追求高召回则容易引入幻觉。用户无法在推理时控制这个权衡。
  4. 本文要解决什么:(1) 构建多模态奖励模型来评估视觉接地质量,(2) 用奖励引导解码实现推理时精度-召回率的动态可控。
  5. 切入角度:分别构建两个独立的奖励模型——\(r_{\text{hal}}\)(从偏好数据训练的幻觉检测器)和\(r_{\text{rec}}\)(基于物体检测器的召回估计器),通过权重\(w\)动态组合。
  6. 核心idea一句话:用两个互补的多模态奖励模型分别评估精度和召回,在推理时通过可调权重引导MLLM的逐句解码搜索。

方法详解

整体框架

给定图像和prompt,MLLM每一步生成\(k\)个候选句子,对每个候选用组合奖励\(s = w \cdot r_{\text{hal}} + (1-w) \cdot r_{\text{rec}}\)打分,选择得分最高的候选拼接到已有回复中,迭代直到生成EOS。用户通过调整\(w\)控制精度-召回权衡,通过调整\(k\)控制计算量-质量权衡。

关键设计

  1. 物体幻觉奖励模型 \(r_{\text{hal}}\):
  2. 做什么:评估生成的caption中物体描述的精确性(是否存在幻觉)。
  3. 核心思路:用PaliGemma作为backbone,加一个线性回归头输出标量,在Bradley-Terry偏好模型框架下训练。损失函数在标准偏好损失基础上加MSE正则化,将输出约束到[0,1]范围:\(\mathcal{L} = \mathcal{L}_{RM} + (r_\theta(x, y^+) - 1)^2 + r_\theta(x, y^-)^2\)
  4. 训练数据:混合4个偏好数据集(LLaVA-RLHF 9.4K + RLHF-V 5.7K + POVID 17K + SugarCrepe 7.5K),使用LoRA微调,仅训练1个epoch。
  5. 设计动机:选择PaliGemma而非CLIP,因为CLIP文本编码器上下文长度仅64 token,无法处理长caption。PaliGemma只需9分钟在8×H100上完成训练,非常轻量。

  6. 物体召回奖励模型 \(r_{\text{rec}}\):

  7. 做什么:估计生成caption中覆盖了多少图像中实际存在的物体。
  8. 核心思路:不需要训练,组合三个现成工具——OWLv2(开放词汇物体检测器)检测图像中的参考物体、NLTK POS tagger提取caption中提到的物体、Sentence-BERT计算物体名称之间的语义相似度。召回率 = 被正确匹配的参考物体数 / 总参考物体数。
  9. 设计动机:直接用检测器的结果作为"伪真值",避免了训练额外模型的开销。虽然估计不完美(检测器recall约56%),但实验证明足以有效提升caption的物体覆盖。

  10. 逐句搜索策略:

  11. 做什么:在生成过程中每\(T\)个句子(默认\(T=1\))进行一次奖励评估和候选选择。
  12. 核心思路:每步从MLLM采样\(k\)个候选句子,用组合奖励\(s\)评分后选最优。比rejection sampling(\(T=\infty\),生成完整回复后选最优)高效6倍以上。
  13. 设计动机:在句子边界而非token级别评估,因为不完整的句子会给奖励模型产生噪声。这平衡了评估频率和评估质量。

双轴可控性

  • 精度-召回轴:通过\(w \in [0,1]\)连续调节。\(w=1\)时全力降幻觉,\(w=0\)时全力提召回。
  • 计算-质量轴:通过\(k\)\(T\)控制。\(k\)越大、\(T\)越小,搜索越充分但计算量越大。

实验关键数据

主实验(LLaVA-1.5 on COCO + AMBER)

方法 CHAIRi↓ CHAIRs↓ Recall↑ CHAIR(AMBER)↓ Cov.(AMBER)↑
Greedy 15.05 48.94 81.30 7.6 49.3
CGD 9.48 37.48 80.11 5.1 48.3
MRGD w=1.0 4.53 18.19 76.04 3.4 52.4
MRGD w=0.5 5.34 22.54 78.63 4.4 60.8
MRGD w=0.0 24.20 73.42 85.23 14.8 64.3

跨模型泛化(Llama-3.2-Vision,已经过DPO对齐):

配置 CHAIRi↓ CHAIRs↓ Recall↑
Greedy 5.82 20.52 71.45
MRGD w=1.0 4.38 15.50 69.54
MRGD w=0.5 4.76 16.75 71.47

消融实验

配置 CHAIRi↓ Recall↑ 说明
MRGD (PaliGemma) 5.34 78.63 默认配置
MRGD (PaliGemma-2) 5.88 78.76 换backbone,效果接近
MRGD +RLAIF-V 7.83 77.54 加更多偏好数据反而变差
MRGD (DETR) 5.37 82.04 换检测器,效果稳定
MRGD (SigLIP) 7.19 73.71 用SigLIP替代PaliGemma,差一些

关键发现

  • MRGD比CGD降低了约50%的CHAIRi(4.53 vs 9.48),同时recall只降了约5%。
  • 固有precision-recall权衡:\(w\)从1到0,CHAIRi从4.53升到24.20,但Recall从76.04升到85.23。
  • 逐句评估(\(T=1\))比rejection sampling(\(T=\infty\))高效6倍以上:\(k=5, T=1\)优于\(k=30, T=\infty\)
  • 添加RLAIF-V(83K更多偏好数据)反而降低\(r_{\text{hal}}\)质量,说明偏好数据质量比数量更重要。
  • 奖励模型可跨模型使用——在LLaVA-1.5上训练的\(r_{\text{hal}}\)直接用于Llama-3.2-Vision和SmolVLM-2仍然有效。
  • 即使在已做过DPO对齐的模型上,MRGD仍能进一步降低幻觉。

亮点与洞察

  • 双奖励分离设计很实用:将精度和召回建模为两个独立奖励函数是一个简洁而有效的设计。用户可以像调旋钮一样通过\(w\)动态控制行为,比RLHF的一次性对齐灵活得多。这种设计思路可以推广到其他维度(如详细度vs简洁度)。
  • \(r_{\text{rec}}\)的零训练方案:用OWLv2+POS tagger+Sentence-BERT组装出无需训练的召回奖励模型,工程上很巧妙。避免了收集召回偏好数据的困难。
  • 推理时对齐是MLLM的重要方向:与VisVM(同批Paper 3)互补——VisVM侧重TD learning的长期价值预测,MRGD侧重双目标的可控权衡。两者都展示了推理时计算扩展对VLM的有效性。

局限性 / 可改进方向

  • 只关注物体幻觉,未涉及属性、数量、空间关系等其他类型的幻觉。
  • \(r_{\text{rec}}\)依赖OWLv2检测器,其recall只有56%,可能遗漏很多物体导致低估实际召回。
  • 只在caption任务上验证,未扩展到VQA等判别式任务。
  • 搜索策略较简单(best-of-k per sentence),未尝试beam search或MCTS等更复杂策略。
  • \(k=30\)时计算开销较大,虽然batched generation减轻了延迟,但仍需生成30倍的文本量。

相关工作与启发

  • vs CGD: CGD用SigLIP作为奖励信号,MRGD用PaliGemma偏好训练的\(r_{\text{hal}}\),后者更强因为(1)上下文更长、(2)在偏好数据上微调。MRGD在CHAIRi上约低50%。
  • vs VisVM: 两者都做推理时搜索,但方向不同——VisVM用TD learning做长期价值预测来减少幻觉,MRGD用双奖励组合做可控权衡。MRGD的优势在于可控性,VisVM的优势在于自训练。
  • vs VCD: VCD通过对比解码(减去无图像概率)来减少幻觉,但在caption benchmark上竟然比greedy更差,说明VCD更适合VQA而非开放式描述。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个MLLM reward-guided decoding方法,双奖励可控权衡是新颖贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ CHAIR+AMBER两个benchmark,3个MLLM,大量消融(数据配比、backbone、检测器、阈值),精度-召回-计算三角权衡分析全面
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,问题定义精准,消融设计合理
  • 价值: ⭐⭐⭐⭐ 提供了一种灵活的推理时MLLM行为控制方法,对社区有实际价值