Controlling Multimodal LLMs via Reward-guided Decoding¶

会议: ICCV 2025
arXiv: 2508.11616
代码: 无
领域: 多模态VLM / 幻觉缓解 / 推理时对齐
关键词: reward-guided decoding, hallucination mitigation, visual grounding, controllable generation, multimodal reward model

一句话总结¶

提出MRGD（Multimodal Reward-Guided Decoding），通过训练一个基于PaliGemma的物体幻觉奖励模型和一个基于OWLv2的物体召回奖励模型，在MLLM推理时通过线性加权组合两个奖励来逐句搜索最优候选输出，在CHAIR上将LLaVA-1.5的CHAIRi从15.05降至4.53（降70%）且支持精度-召回率的动态可控权衡。

研究背景与动机¶

领域现状：MLLM的幻觉问题主要通过SFT、RLHF微调和prompt工程来缓解，但这些方法在推理时缺乏细粒度的可控性。SFT和RLHF一旦完成，用户无法在推理时调节模型行为。
现有痛点：用户需求多样化——视障用户需要高精度（不能幻觉）、合成数据用户需要高召回（尽可能描述更多物体）。现有方法无法让用户在推理时动态权衡这两个目标。LLM领域的reward-guided decoding已经证明有效，但多模态场景下缺乏相关工作。
核心矛盾：MLLM生成中存在固有的物体精度vs召回率权衡——减少幻觉往往导致模型更保守从而遗漏物体，而追求高召回则容易引入幻觉。用户无法在推理时控制这个权衡。
本文要解决什么：(1) 构建多模态奖励模型来评估视觉接地质量，(2) 用奖励引导解码实现推理时精度-召回率的动态可控。
切入角度：分别构建两个独立的奖励模型——\(r_{\text{hal}}\)（从偏好数据训练的幻觉检测器）和\(r_{\text{rec}}\)（基于物体检测器的召回估计器），通过权重\(w\)动态组合。
核心idea一句话：用两个互补的多模态奖励模型分别评估精度和召回，在推理时通过可调权重引导MLLM的逐句解码搜索。

方法详解¶

整体框架¶

给定图像和prompt，MLLM每一步生成\(k\)个候选句子，对每个候选用组合奖励\(s = w \cdot r_{\text{hal}} + (1-w) \cdot r_{\text{rec}}\)打分，选择得分最高的候选拼接到已有回复中，迭代直到生成EOS。用户通过调整\(w\)控制精度-召回权衡，通过调整\(k\)控制计算量-质量权衡。

关键设计¶

物体幻觉奖励模型 \(r_{\text{hal}}\):
做什么：评估生成的caption中物体描述的精确性（是否存在幻觉）。
核心思路：用PaliGemma作为backbone，加一个线性回归头输出标量，在Bradley-Terry偏好模型框架下训练。损失函数在标准偏好损失基础上加MSE正则化，将输出约束到[0,1]范围：\(\mathcal{L} = \mathcal{L}_{RM} + (r_\theta(x, y^+) - 1)^2 + r_\theta(x, y^-)^2\)。
训练数据：混合4个偏好数据集（LLaVA-RLHF 9.4K + RLHF-V 5.7K + POVID 17K + SugarCrepe 7.5K），使用LoRA微调，仅训练1个epoch。
设计动机：选择PaliGemma而非CLIP，因为CLIP文本编码器上下文长度仅64 token，无法处理长caption。PaliGemma只需9分钟在8×H100上完成训练，非常轻量。
物体召回奖励模型 \(r_{\text{rec}}\):
做什么：估计生成caption中覆盖了多少图像中实际存在的物体。
核心思路：不需要训练，组合三个现成工具——OWLv2（开放词汇物体检测器）检测图像中的参考物体、NLTK POS tagger提取caption中提到的物体、Sentence-BERT计算物体名称之间的语义相似度。召回率 = 被正确匹配的参考物体数 / 总参考物体数。
设计动机：直接用检测器的结果作为"伪真值"，避免了训练额外模型的开销。虽然估计不完美（检测器recall约56%），但实验证明足以有效提升caption的物体覆盖。
逐句搜索策略:
做什么：在生成过程中每\(T\)个句子（默认\(T=1\)）进行一次奖励评估和候选选择。
核心思路：每步从MLLM采样\(k\)个候选句子，用组合奖励\(s\)评分后选最优。比rejection sampling（\(T=\infty\)，生成完整回复后选最优）高效6倍以上。
设计动机：在句子边界而非token级别评估，因为不完整的句子会给奖励模型产生噪声。这平衡了评估频率和评估质量。

双轴可控性¶

精度-召回轴：通过\(w \in [0,1]\)连续调节。\(w=1\)时全力降幻觉，\(w=0\)时全力提召回。
计算-质量轴：通过\(k\)和\(T\)控制。\(k\)越大、\(T\)越小，搜索越充分但计算量越大。

实验关键数据¶

主实验（LLaVA-1.5 on COCO + AMBER）¶

方法	CHAIRi↓	CHAIRs↓	Recall↑	CHAIR(AMBER)↓	Cov.(AMBER)↑
Greedy	15.05	48.94	81.30	7.6	49.3
CGD	9.48	37.48	80.11	5.1	48.3
MRGD w=1.0	4.53	18.19	76.04	3.4	52.4
MRGD w=0.5	5.34	22.54	78.63	4.4	60.8
MRGD w=0.0	24.20	73.42	85.23	14.8	64.3

跨模型泛化（Llama-3.2-Vision，已经过DPO对齐）:

配置	CHAIRi↓	CHAIRs↓	Recall↑
Greedy	5.82	20.52	71.45
MRGD w=1.0	4.38	15.50	69.54
MRGD w=0.5	4.76	16.75	71.47

消融实验¶

配置	CHAIRi↓	Recall↑	说明
MRGD (PaliGemma)	5.34	78.63	默认配置
MRGD (PaliGemma-2)	5.88	78.76	换backbone，效果接近
MRGD +RLAIF-V	7.83	77.54	加更多偏好数据反而变差
MRGD (DETR)	5.37	82.04	换检测器，效果稳定
MRGD (SigLIP)	7.19	73.71	用SigLIP替代PaliGemma，差一些

关键发现¶

MRGD比CGD降低了约50%的CHAIRi（4.53 vs 9.48），同时recall只降了约5%。
固有precision-recall权衡：\(w\)从1到0，CHAIRi从4.53升到24.20，但Recall从76.04升到85.23。
逐句评估（\(T=1\)）比rejection sampling（\(T=\infty\)）高效6倍以上：\(k=5, T=1\)优于\(k=30, T=\infty\)。
添加RLAIF-V（83K更多偏好数据）反而降低\(r_{\text{hal}}\)质量，说明偏好数据质量比数量更重要。
奖励模型可跨模型使用——在LLaVA-1.5上训练的\(r_{\text{hal}}\)直接用于Llama-3.2-Vision和SmolVLM-2仍然有效。
即使在已做过DPO对齐的模型上，MRGD仍能进一步降低幻觉。

亮点与洞察¶

双奖励分离设计很实用：将精度和召回建模为两个独立奖励函数是一个简洁而有效的设计。用户可以像调旋钮一样通过\(w\)动态控制行为，比RLHF的一次性对齐灵活得多。这种设计思路可以推广到其他维度（如详细度vs简洁度）。
\(r_{\text{rec}}\)的零训练方案：用OWLv2+POS tagger+Sentence-BERT组装出无需训练的召回奖励模型，工程上很巧妙。避免了收集召回偏好数据的困难。
推理时对齐是MLLM的重要方向：与VisVM（同批Paper 3）互补——VisVM侧重TD learning的长期价值预测，MRGD侧重双目标的可控权衡。两者都展示了推理时计算扩展对VLM的有效性。

局限性 / 可改进方向¶

只关注物体幻觉，未涉及属性、数量、空间关系等其他类型的幻觉。
\(r_{\text{rec}}\)依赖OWLv2检测器，其recall只有56%，可能遗漏很多物体导致低估实际召回。
只在caption任务上验证，未扩展到VQA等判别式任务。
搜索策略较简单（best-of-k per sentence），未尝试beam search或MCTS等更复杂策略。
\(k=30\)时计算开销较大，虽然batched generation减轻了延迟，但仍需生成30倍的文本量。

评分¶

新颖性: ⭐⭐⭐⭐ 首个MLLM reward-guided decoding方法，双奖励可控权衡是新颖贡献
实验充分度: ⭐⭐⭐⭐⭐ CHAIR+AMBER两个benchmark，3个MLLM，大量消融（数据配比、backbone、检测器、阈值），精度-召回-计算三角权衡分析全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，问题定义精准，消融设计合理
价值: ⭐⭐⭐⭐ 提供了一种灵活的推理时MLLM行为控制方法，对社区有实际价值