Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension¶

会议: ICCV 2025
arXiv: 2412.03704
代码: 无
领域: 多模态VLM / 推理时搜索
关键词: inference-time scaling, value model, hallucination reduction, self-training, vision-language model

一句话总结¶

提出Vision Value Model（VisVM），用TD learning训练一个能预测VLM生成句子长期价值的价值网络，指导推理时逐句搜索生成更少幻觉、更丰富细节的图像描述，并进一步将VisVM生成的高质量caption用于自训练，在9个benchmark上平均提升LLaVA-Next 10.8%。

研究背景与动机¶

领域现状：LLM领域已经证明推理时计算扩展（inference-time scaling）是提升模型质量的有效途径（如OpenAI O1），利用过程奖励模型（PRM）引导搜索可以生成更高质量的回复。但VLM领域缺乏有效的推理时搜索方法。
现有痛点：VLM的推理时搜索面临独特挑战——与数学/编码任务不同，图像描述任务没有明确的结果度量，需要多个句子组成连贯段落，每个句子不仅要局部准确还要全局连贯。直接用CLIP作为过程奖励信号只能评估当前句子质量，无法预见未来句子可能引发的幻觉。
核心矛盾：PRM只看当前step的即时奖励，但生成图像描述时，当前选择的句子会影响后续句子的质量和连贯性。一个当前看起来不错的句子可能导致后续产生大量幻觉。
本文要解决什么：训练一个能预测长期价值（而非仅即时奖励）的视觉价值模型，用它指导VLM推理时搜索。
切入角度：将VLM文本生成建模为MDP问题，每一步生成一个句子作为action，用TD learning（而非仅作为PRM的CLIP）训练价值函数来预测未来所有句子的累积奖励。
核心idea一句话：用TD learning训练的价值模型替代即时奖励模型来指导VLM逐句搜索，实现"前瞻性"的质量评估，减少幻觉。

方法详解¶

整体框架¶

将VLM文本生成建模为MDP：状态=已生成的句子+图像，动作=当前步生成的句子，奖励=CLIP相似度打分。训练一个VisVM作为价值函数来估计每个状态的长期累积奖励。推理时，VLM在每步用多个温度生成多个候选句子，VisVM评估每个候选的长期价值，选择价值最高的句子继续生成。

关键设计¶

VisVM训练——TD Learning:
做什么：训练一个价值网络，输入为（当前句子, 图像），输出为标量值\(V_\rho(y_i, I)\)，预测从当前状态开始的长期累积奖励。
核心思路：使用Temporal Difference学习，损失函数为 \(L(\rho) = -\mathbb{E}_{(y_i, y_{i+1}, I) \sim \mathcal{D}} (r_{s_i} + \gamma V_\rho(y_{i+1}, I) - V_\rho(y_i, I))^2\)，即让当前值等于即时奖励加上折扣后的下一状态值。折扣因子\(\gamma=0.9\)。
设计动机：PRM只看当前句子的CLIP分数（即时奖励），无法预见后续句子可能带来的幻觉。TD learning让VisVM学会了"前瞻"能力——即使当前句子CLIP分数略低，但如果它能引导后续生成更高质量的句子，VisVM也会给出更高的值。
训练数据构建:
从COCO 2017训练集采样9,215张图像，配合LLaVA-150K的9种描述prompt
对每个<图像, prompt>用VLM以不同温度生成5种不同描述
将描述拆分为（当前句子, 下一句子, 图像）三元组，共378K样本
设计动机：多样化的回复让VisVM能学习到不同句子选择导致的不同未来轨迹。
自奖励PRM设计:
使用VLM自身的视觉编码器（LLaVA-Next用CLIP-ViT，LLaVA-OV用SigLIP）作为PRM计算图文相似度
不引入任何外部模型或人工标注，实现完全"自给自足"
实验证明更强的PRM（如SigLIP替代CLIP-ViT）可以进一步提升VisVM效果
推理时搜索策略:
每步用5个温度（0.1~0.9）+贪心解码生成6个候选句子
VisVM评估每个候选的长期价值，选择最高的
逐句迭代直到生成完整回复
比MCTS高效约7倍（VisVM的价值函数可泛化到新的prompt-image对，MCTS每次都需重新搜索）

自训练Pipeline¶

用VisVM引导的搜索为9,215张COCO图像生成高质量描述caption → 作为SFT数据全参数微调原始VLM → 3个epoch, lr=1e-6。整个过程无需外部模型或人工标注。

实验关键数据¶

幻觉评估（LLaVA-Next-7B推理时搜索）¶

搜索方法	CHAIRs↓	CHAIRi↓	MMHal↑	MMHal rate↓	AMBER Cov↑
Greedy (默认)	32.4	5.9	2.94	0.52	63.9
BoN (30)	27.1	5.2	3.06	0.45	65.3
CLIP-PRM	28.4	5.5	2.96	0.49	66.1
MCTS	25.9	4.7	3.24	0.37	67.3
VisVM	26.2	4.6	3.30	0.39	66.8

自训练后多benchmark性能（LLaVA-Next-7B）¶

数据源	MM-Vet	MMBench	MMMU	MathVista	CVBench	LLaVA-Wild	MMStar	CHAIRs↓	Avg提升
原始模型	45.2	74.9	34.2	38.5	65.8	76.9	36.0	32.4	—
Greedy SFT	43.5	74.6	34.9	37.8	66.2	75.1	36.7	33.2	-1.6%
BoN SFT	47.1	76.1	35.4	40.9	67.9	77.3	36.9	30.0	+4.9%
CLIP-PRM SFT	46.1	75.8	35.8	39.6	68.5	78.1	36.6	26.0	+4.6%
VisVM SFT	48.3	76.7	36.1	42.3	69.8	78.4	38.0	22.6	+10.8%

消融实验¶

配置	CHAIRs↓	CHAIRi↓	MMHal↑	AMBER Cov↑
Greedy	32.4	5.9	2.94	63.9
CLIP-VisVM	26.2	4.6	3.30	66.8
SigLIP-VisVM (更强PRM)	25.6	4.4	3.31	67.5

关键发现¶

VisVM在减少幻觉方面接近MCTS水平但计算成本仅为约1/7。
推理时计算越多越好：step size从2增到16，CHAIRs持续下降。VisVM比CLIP-PRM搜索效率高2x（step size=8的VisVM ≈ step size=16的CLIP-PRM）。
Greedy decoding的caption做SFT反而降低性能（-1.6%），说明自训练数据质量至关重要。
VisVM自训练在Qwen2-VL-7B上也有效，平均提升7.3%，证明了泛化性。
从相同候选集中选择时，VisVM选的句子导致后续greedy decoding产生更少幻觉（30.9 vs 31.6 CHAIRs），验证了前瞻价值预测的效果。

亮点与洞察¶

MDP建模+TD learning的创新应用：将VLM文本生成建模为MDP并用TD learning训练价值函数是非常优雅的做法。长期价值预测比即时奖励更能避免"短视"的句子选择。这个框架可以推广到VLM的其他生成任务。
完全自给自足的自训练闭环：PRM来自VLM自身的视觉编码器，VisVM从VLM初始化，SFT数据由VLM+VisVM生成。整个流程不需要外部模型或人工标注，是一个真正的自改进pipeline。
推理时搜索的效率与效果平衡：VisVM比MCTS高效7倍却效果相当。核心优势在于VisVM的价值函数是一个可泛化的神经网络，而MCTS每次需要从头搜索。

局限性 / 可改进方向¶

只在descriptive captioning任务上验证，未扩展到VQA、reasoning等其他VLM任务。
搜索粒度固定为sentence-level，更细粒度（token-level）或更粗粒度（paragraph-level）可能在不同场景下更优。
VisVM训练数据只用了9K图像，扩大训练规模可能进一步提升。
目前只做了一轮自训练，多轮迭代自训练是否会持续提升值得探索。
推理时搜索引入了额外计算开销（~6个候选/步），在延迟敏感场景中可能受限。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将RL的value function引入VLM推理时搜索，MDP+TD learning框架优雅且有效
实验充分度: ⭐⭐⭐⭐⭐ 推理时搜索+自训练两个维度，9个benchmark，GPT+人工评估，多VLM验证，消融全面
写作质量: ⭐⭐⭐⭐ 清晰系统，案例分析直观
价值: ⭐⭐⭐⭐⭐ 为VLM的推理时计算扩展开辟了新方向，自训练pipeline有很强的实用价值