跳转至

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

会议: ICCV 2025
arXiv: 2412.03704
代码: 无
领域: 多模态VLM / 推理时搜索
关键词: inference-time scaling, value model, hallucination reduction, self-training, vision-language model

一句话总结

提出Vision Value Model(VisVM),用TD learning训练一个能预测VLM生成句子长期价值的价值网络,指导推理时逐句搜索生成更少幻觉、更丰富细节的图像描述,并进一步将VisVM生成的高质量caption用于自训练,在9个benchmark上平均提升LLaVA-Next 10.8%。

研究背景与动机

  1. 领域现状:LLM领域已经证明推理时计算扩展(inference-time scaling)是提升模型质量的有效途径(如OpenAI O1),利用过程奖励模型(PRM)引导搜索可以生成更高质量的回复。但VLM领域缺乏有效的推理时搜索方法。
  2. 现有痛点:VLM的推理时搜索面临独特挑战——与数学/编码任务不同,图像描述任务没有明确的结果度量,需要多个句子组成连贯段落,每个句子不仅要局部准确还要全局连贯。直接用CLIP作为过程奖励信号只能评估当前句子质量,无法预见未来句子可能引发的幻觉。
  3. 核心矛盾:PRM只看当前step的即时奖励,但生成图像描述时,当前选择的句子会影响后续句子的质量和连贯性。一个当前看起来不错的句子可能导致后续产生大量幻觉。
  4. 本文要解决什么:训练一个能预测长期价值(而非仅即时奖励)的视觉价值模型,用它指导VLM推理时搜索。
  5. 切入角度:将VLM文本生成建模为MDP问题,每一步生成一个句子作为action,用TD learning(而非仅作为PRM的CLIP)训练价值函数来预测未来所有句子的累积奖励。
  6. 核心idea一句话:用TD learning训练的价值模型替代即时奖励模型来指导VLM逐句搜索,实现"前瞻性"的质量评估,减少幻觉。

方法详解

整体框架

将VLM文本生成建模为MDP:状态=已生成的句子+图像,动作=当前步生成的句子,奖励=CLIP相似度打分。训练一个VisVM作为价值函数来估计每个状态的长期累积奖励。推理时,VLM在每步用多个温度生成多个候选句子,VisVM评估每个候选的长期价值,选择价值最高的句子继续生成。

关键设计

  1. VisVM训练——TD Learning:
  2. 做什么:训练一个价值网络,输入为(当前句子, 图像),输出为标量值\(V_\rho(y_i, I)\),预测从当前状态开始的长期累积奖励。
  3. 核心思路:使用Temporal Difference学习,损失函数为 \(L(\rho) = -\mathbb{E}_{(y_i, y_{i+1}, I) \sim \mathcal{D}} (r_{s_i} + \gamma V_\rho(y_{i+1}, I) - V_\rho(y_i, I))^2\),即让当前值等于即时奖励加上折扣后的下一状态值。折扣因子\(\gamma=0.9\)
  4. 设计动机:PRM只看当前句子的CLIP分数(即时奖励),无法预见后续句子可能带来的幻觉。TD learning让VisVM学会了"前瞻"能力——即使当前句子CLIP分数略低,但如果它能引导后续生成更高质量的句子,VisVM也会给出更高的值。

  5. 训练数据构建:

  6. 从COCO 2017训练集采样9,215张图像,配合LLaVA-150K的9种描述prompt
  7. 对每个<图像, prompt>用VLM以不同温度生成5种不同描述
  8. 将描述拆分为(当前句子, 下一句子, 图像)三元组,共378K样本
  9. 设计动机:多样化的回复让VisVM能学习到不同句子选择导致的不同未来轨迹。

  10. 自奖励PRM设计:

  11. 使用VLM自身的视觉编码器(LLaVA-Next用CLIP-ViT,LLaVA-OV用SigLIP)作为PRM计算图文相似度
  12. 不引入任何外部模型或人工标注,实现完全"自给自足"
  13. 实验证明更强的PRM(如SigLIP替代CLIP-ViT)可以进一步提升VisVM效果

  14. 推理时搜索策略:

  15. 每步用5个温度(0.1~0.9)+贪心解码生成6个候选句子
  16. VisVM评估每个候选的长期价值,选择最高的
  17. 逐句迭代直到生成完整回复
  18. 比MCTS高效约7倍(VisVM的价值函数可泛化到新的prompt-image对,MCTS每次都需重新搜索)

自训练Pipeline

用VisVM引导的搜索为9,215张COCO图像生成高质量描述caption → 作为SFT数据全参数微调原始VLM → 3个epoch, lr=1e-6。整个过程无需外部模型或人工标注。

实验关键数据

幻觉评估(LLaVA-Next-7B推理时搜索)

搜索方法 CHAIRs↓ CHAIRi↓ MMHal↑ MMHal rate↓ AMBER Cov↑
Greedy (默认) 32.4 5.9 2.94 0.52 63.9
BoN (30) 27.1 5.2 3.06 0.45 65.3
CLIP-PRM 28.4 5.5 2.96 0.49 66.1
MCTS 25.9 4.7 3.24 0.37 67.3
VisVM 26.2 4.6 3.30 0.39 66.8

自训练后多benchmark性能(LLaVA-Next-7B)

数据源 MM-Vet MMBench MMMU MathVista CVBench LLaVA-Wild MMStar CHAIRs↓ Avg提升
原始模型 45.2 74.9 34.2 38.5 65.8 76.9 36.0 32.4
Greedy SFT 43.5 74.6 34.9 37.8 66.2 75.1 36.7 33.2 -1.6%
BoN SFT 47.1 76.1 35.4 40.9 67.9 77.3 36.9 30.0 +4.9%
CLIP-PRM SFT 46.1 75.8 35.8 39.6 68.5 78.1 36.6 26.0 +4.6%
VisVM SFT 48.3 76.7 36.1 42.3 69.8 78.4 38.0 22.6 +10.8%

消融实验

配置 CHAIRs↓ CHAIRi↓ MMHal↑ AMBER Cov↑
Greedy 32.4 5.9 2.94 63.9
CLIP-VisVM 26.2 4.6 3.30 66.8
SigLIP-VisVM (更强PRM) 25.6 4.4 3.31 67.5

关键发现

  • VisVM在减少幻觉方面接近MCTS水平但计算成本仅为约1/7。
  • 推理时计算越多越好:step size从2增到16,CHAIRs持续下降。VisVM比CLIP-PRM搜索效率高2x(step size=8的VisVM ≈ step size=16的CLIP-PRM)。
  • Greedy decoding的caption做SFT反而降低性能(-1.6%),说明自训练数据质量至关重要。
  • VisVM自训练在Qwen2-VL-7B上也有效,平均提升7.3%,证明了泛化性。
  • 从相同候选集中选择时,VisVM选的句子导致后续greedy decoding产生更少幻觉(30.9 vs 31.6 CHAIRs),验证了前瞻价值预测的效果。

亮点与洞察

  • MDP建模+TD learning的创新应用:将VLM文本生成建模为MDP并用TD learning训练价值函数是非常优雅的做法。长期价值预测比即时奖励更能避免"短视"的句子选择。这个框架可以推广到VLM的其他生成任务。
  • 完全自给自足的自训练闭环:PRM来自VLM自身的视觉编码器,VisVM从VLM初始化,SFT数据由VLM+VisVM生成。整个流程不需要外部模型或人工标注,是一个真正的自改进pipeline。
  • 推理时搜索的效率与效果平衡:VisVM比MCTS高效7倍却效果相当。核心优势在于VisVM的价值函数是一个可泛化的神经网络,而MCTS每次需要从头搜索。

局限性 / 可改进方向

  • 只在descriptive captioning任务上验证,未扩展到VQA、reasoning等其他VLM任务。
  • 搜索粒度固定为sentence-level,更细粒度(token-level)或更粗粒度(paragraph-level)可能在不同场景下更优。
  • VisVM训练数据只用了9K图像,扩大训练规模可能进一步提升。
  • 目前只做了一轮自训练,多轮迭代自训练是否会持续提升值得探索。
  • 推理时搜索引入了额外计算开销(~6个候选/步),在延迟敏感场景中可能受限。

相关工作与启发

  • vs CLIP-PRM: VisVM通过TD learning将CLIP的即时奖励转化为长期价值估计,在相同搜索预算下始终优于直接用CLIP分数。
  • vs MCTS: MCTS也能实现前瞻搜索,但计算成本约7倍于VisVM,因为MCTS不复用value function。
  • vs BoN: BoN生成30个完整回复再选最好的,效率低且无法逐步引导。VisVM在step size=6时(6个候选)已超过30个候选的BoN。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将RL的value function引入VLM推理时搜索,MDP+TD learning框架优雅且有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 推理时搜索+自训练两个维度,9个benchmark,GPT+人工评估,多VLM验证,消融全面
  • 写作质量: ⭐⭐⭐⭐ 清晰系统,案例分析直观
  • 价值: ⭐⭐⭐⭐⭐ 为VLM的推理时计算扩展开辟了新方向,自训练pipeline有很强的实用价值