Latent Chain-of-Thought for Visual Reasoning¶
会议: NeurIPS 2025
arXiv: 2510.23925
代码: heliossun/LaCoT
领域: 多模态VLM / 视觉推理
关键词: visual reasoning, chain-of-thought, amortized variational inference, GFlowNets, inference-time scaling, LVLM
一句话总结¶
将视觉CoT推理重新建模为后验推断问题,提出基于摊销变分推断(AVI)的LaCoT训练框架——包含参考引导GFlowNet微调(RGFN)、token级奖励近似和贝叶斯推理缩放(BiN)——在Qwen2.5-VL 3B/7B上比GRPO高出10.6%,在7个视觉推理基准上达到开源SOTA。
研究背景与动机¶
- CoT对LVLM至关重要:视觉链式思维(CoT)是提升大视觉语言模型可解释性和可靠性的核心能力,但现有训练方法在泛化性上存在明显瓶颈
- SFT的局限:监督微调依赖teacher-forcing式log-likelihood,只能"模仿"参考推理链,缺乏探索能力
- PPO/GRPO的限制:KL惩罚强制策略接近SFT基线,限制了发现新推理路径的能力;且容易出现reward hacking——模型获得高分却并未真正解决问题
- 确定性采样不足:现有方法将推理视为确定性生成过程,无法捕捉推理轨迹的多样性和不确定性
- 推理时缩放代价高:Best-of-N和Beam Search等方法需要额外的奖励模型评估,计算成本高且依赖有偏的critic模型
- 长序列token级奖励计算困难:多模态推理链通常长达~1k tokens,逐token计算精确奖励计算量巨大
方法详解¶
LaCoT将视觉推理建模为潜变量模型的后验推断:给定问题-答案对(X,Y),目标是从后验P(Z|X,Y)中采样潜在推理链Z。整体框架包含三个核心创新:
1. Token级边际奖励近似(ISubTB)¶
- 在完整推理链中每隔λ=8个token计算一次真实奖励R(z₁:t⊤)=log P(Xz₁:tY)
- 中间步骤使用线性插值近似:R̃(z₁:t+i⊤) = R(z₁:t⊤) + (i/λ)·[R(z₁:t+λ⊤) - R(z₁:t⊤)]
- 理论证明:当λ足够短时,插值误差趋近0且流一致性条件成立
- 将SubTB损失中的精确奖励替换为近似奖励,得到ISubTB目标函数
2. 参考引导GFlowNet微调(RGFN)¶
- 从策略模型qθ(Z|X)探索m个候选推理链{Z₁,...,Zm}
- 用参考推理链Zref(来自GPT-4o/DeepSeek-R1生成的CoT)作为锚点
- 指示函数𝕀(Zi)过滤掉奖励低于δs·R(Zref)的候选,防止灾难性遗忘
- 退火系数δs随训练步数逐渐收紧:前50步容忍更多探索,之后逐步提高标准
- 仅对"优于参考"的样本反传梯度,无需手调KL惩罚或梯度裁剪
3. 贝叶斯推理缩放(BiN)¶
- 采样N个潜在推理链Zi ~ qθ(Z|X),每个生成对应答案Yi ~ πΦ(Y|XZi)
- 计算长度归一化的联合似然:P(Yi|X) ~ (1/N)·Σ[πΦ(ZiYi|X)/|ZiYi|]
- 选择边际似然最高的答案作为最终输出
- 无需外部奖励模型,基于贝叶斯采样原理实现统计上稳健的答案选择
训练细节¶
- 基座:Qwen2.5-VL-3B/7B,先SFT得到πΦ作为奖励模型和初始化
- 策略模型用LoRA训练(r=64, alpha=128),仅用3k个视觉推理样本
- 引入新角色token"Analyzer"使模型可选择性地提供推理步骤
实验关键数据¶
| 模型 | MathVista | MathVision | MathVerse(V-only) | MMMU(val) | MMMU-pro | MMVet | MME |
|---|---|---|---|---|---|---|---|
| GPT-4o | 60.0 | 30.4 | 40.6 | 70.7 | 51.9 | 69.1 | 2329 |
| Qwen2.5-VL-7B | 63.7 | 25.4 | 38.2 | 50.0 | 34.6 | 70.5 | 2333 |
| R1-Onevision(GRPO) | 64.1 | 23.9 | 37.8 | 47.9 | 28.2 | 71.1 | 1111 |
| LaCoT-Qwen-7B | 68.4 | 24.9 | 43.3 | 54.9 | 35.3 | 74.2 | 2372 |
| LaCoT-Qwen-3B | 63.2 | 20.7 | 40.0 | 48.8 | 28.9 | 69.6 | 2208 |
| 推理缩放方法 | MathVerse | MathVista | MMMU | MMVet |
|---|---|---|---|---|
| 3B w/ BoN | 21.2 | 57.1 | 44.7 | 67.1 |
| 3B w/ BiN | 40.0 | 63.2 | 48.8 | 69.6 |
| 7B w/ BoN | 26.5 | 62.2 | 47.3 | 71.2 |
| 7B w/ BiN | 39.7 | 68.4 | 54.9 | 74.2 |
亮点¶
- 理论创新深刻:将CoT推理建模为变分推断问题,用GFlowNets的SubTB目标实现摊销后验采样,理论基础扎实
- 3B超越7B:LaCoT-3B在MathVerse上跳升14点超越所有7B模型(含LLaVA-CoT-11B),证明采样多样性比模型规模更重要
- BiN远超BoN:MathVerse上BiN比BoN高出约15-18个百分点,且无需外部奖励模型
- 参考引导探索优雅:RGFN用退火式过滤代替KL惩罚,既保证探索又防止灾难性遗忘,减少了梯度方差
- 训练高效:仅用3k样本+LoRA微调即可获得显著提升
局限性¶
- 受限于资源,仅在≤7B模型上验证,更大模型效果未知
- 在MathVision(真实数学竞赛题,手写/低分辨率图表)上提升有限,表明OCR和视觉定位仍是瓶颈
- 作为on-policy方法,长序列复杂潜变量的探索依然具有挑战性(内存和时间成本)
- 未解决幻觉问题——尽管增加采样N可缓解,但并非根治
- 奖励函数依赖SFT模型的似然值质量,如果SFT阶段学得不好会传导误差
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将GFlowNets引入LVLM推理的概率建模是非常新颖的视角,理论推导完整
- 实验充分度: ⭐⭐⭐⭐ 7个基准全面测评,消融实验覆盖主要组件,但缺少更大模型验证
- 写作质量: ⭐⭐⭐⭐ 公式推导清晰,图表直观,但部分符号引入较密集
- 价值: ⭐⭐⭐⭐⭐ 为视觉推理提供了全新范式,BiN推理缩放方法可直接应用于任意推理LVLM