Latent Chain-of-Thought for Visual Reasoning¶

会议: NeurIPS 2025
arXiv: 2510.23925
代码: heliossun/LaCoT
领域: 多模态VLM / 视觉推理
关键词: visual reasoning, chain-of-thought, amortized variational inference, GFlowNets, inference-time scaling, LVLM

一句话总结¶

将视觉CoT推理重新建模为后验推断问题，提出基于摊销变分推断(AVI)的LaCoT训练框架——包含参考引导GFlowNet微调(RGFN)、token级奖励近似和贝叶斯推理缩放(BiN)——在Qwen2.5-VL 3B/7B上比GRPO高出10.6%，在7个视觉推理基准上达到开源SOTA。

研究背景与动机¶

CoT对LVLM至关重要：视觉链式思维(CoT)是提升大视觉语言模型可解释性和可靠性的核心能力，但现有训练方法在泛化性上存在明显瓶颈
SFT的局限：监督微调依赖teacher-forcing式log-likelihood，只能"模仿"参考推理链，缺乏探索能力
PPO/GRPO的限制：KL惩罚强制策略接近SFT基线，限制了发现新推理路径的能力；且容易出现reward hacking——模型获得高分却并未真正解决问题
确定性采样不足：现有方法将推理视为确定性生成过程，无法捕捉推理轨迹的多样性和不确定性
推理时缩放代价高：Best-of-N和Beam Search等方法需要额外的奖励模型评估，计算成本高且依赖有偏的critic模型
长序列token级奖励计算困难：多模态推理链通常长达~1k tokens，逐token计算精确奖励计算量巨大

方法详解¶

LaCoT将视觉推理建模为潜变量模型的后验推断：给定问题-答案对(X,Y)，目标是从后验P(Z|X,Y)中采样潜在推理链Z。整体框架包含三个核心创新：

1. Token级边际奖励近似（ISubTB）¶

在完整推理链中每隔λ=8个token计算一次真实奖励R(z₁:t⊤)=log P(Xz₁:tY)
中间步骤使用线性插值近似：R̃(z₁:t+i⊤) = R(z₁:t⊤) + (i/λ)·[R(z₁:t+λ⊤) - R(z₁:t⊤)]
理论证明：当λ足够短时，插值误差趋近0且流一致性条件成立
将SubTB损失中的精确奖励替换为近似奖励，得到ISubTB目标函数

2. 参考引导GFlowNet微调（RGFN）¶

从策略模型qθ(Z|X)探索m个候选推理链{Z₁,...,Zm}
用参考推理链Zref（来自GPT-4o/DeepSeek-R1生成的CoT）作为锚点
指示函数𝕀(Zi)过滤掉奖励低于δs·R(Zref)的候选，防止灾难性遗忘
退火系数δs随训练步数逐渐收紧：前50步容忍更多探索，之后逐步提高标准
仅对"优于参考"的样本反传梯度，无需手调KL惩罚或梯度裁剪

3. 贝叶斯推理缩放（BiN）¶

采样N个潜在推理链Zi ~ qθ(Z|X)，每个生成对应答案Yi ~ πΦ(Y|XZi)
计算长度归一化的联合似然：P(Yi|X) ~ (1/N)·Σ[πΦ(ZiYi|X)/|ZiYi|]
选择边际似然最高的答案作为最终输出
无需外部奖励模型，基于贝叶斯采样原理实现统计上稳健的答案选择

训练细节¶

基座：Qwen2.5-VL-3B/7B，先SFT得到πΦ作为奖励模型和初始化
策略模型用LoRA训练（r=64, alpha=128），仅用3k个视觉推理样本
引入新角色token"Analyzer"使模型可选择性地提供推理步骤

实验关键数据¶

模型	MathVista	MathVision	MathVerse(V-only)	MMMU(val)	MMMU-pro	MMVet	MME
GPT-4o	60.0	30.4	40.6	70.7	51.9	69.1	2329
Qwen2.5-VL-7B	63.7	25.4	38.2	50.0	34.6	70.5	2333
R1-Onevision(GRPO)	64.1	23.9	37.8	47.9	28.2	71.1	1111
LaCoT-Qwen-7B	68.4	24.9	43.3	54.9	35.3	74.2	2372
LaCoT-Qwen-3B	63.2	20.7	40.0	48.8	28.9	69.6	2208

推理缩放方法	MathVerse	MathVista	MMMU	MMVet
3B w/ BoN	21.2	57.1	44.7	67.1
3B w/ BiN	40.0	63.2	48.8	69.6
7B w/ BoN	26.5	62.2	47.3	71.2
7B w/ BiN	39.7	68.4	54.9	74.2

亮点¶

理论创新深刻：将CoT推理建模为变分推断问题，用GFlowNets的SubTB目标实现摊销后验采样，理论基础扎实
3B超越7B：LaCoT-3B在MathVerse上跳升14点超越所有7B模型（含LLaVA-CoT-11B），证明采样多样性比模型规模更重要
BiN远超BoN：MathVerse上BiN比BoN高出约15-18个百分点，且无需外部奖励模型
参考引导探索优雅：RGFN用退火式过滤代替KL惩罚，既保证探索又防止灾难性遗忘，减少了梯度方差
训练高效：仅用3k样本+LoRA微调即可获得显著提升

局限性¶

受限于资源，仅在≤7B模型上验证，更大模型效果未知
在MathVision（真实数学竞赛题，手写/低分辨率图表）上提升有限，表明OCR和视觉定位仍是瓶颈
作为on-policy方法，长序列复杂潜变量的探索依然具有挑战性（内存和时间成本）
未解决幻觉问题——尽管增加采样N可缓解，但并非根治
奖励函数依赖SFT模型的似然值质量，如果SFT阶段学得不好会传导误差

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将GFlowNets引入LVLM推理的概率建模是非常新颖的视角，理论推导完整
实验充分度: ⭐⭐⭐⭐ 7个基准全面测评，消融实验覆盖主要组件，但缺少更大模型验证
写作质量: ⭐⭐⭐⭐ 公式推导清晰，图表直观，但部分符号引入较密集
价值: ⭐⭐⭐⭐⭐ 为视觉推理提供了全新范式，BiN推理缩放方法可直接应用于任意推理LVLM