跳转至

Latent Chain-of-Thought for Visual Reasoning

会议: NeurIPS 2025
arXiv: 2510.23925
代码: heliossun/LaCoT
领域: 多模态VLM / 视觉推理
关键词: visual reasoning, chain-of-thought, amortized variational inference, GFlowNets, inference-time scaling, LVLM

一句话总结

将视觉CoT推理重新建模为后验推断问题,提出基于摊销变分推断(AVI)的LaCoT训练框架——包含参考引导GFlowNet微调(RGFN)、token级奖励近似和贝叶斯推理缩放(BiN)——在Qwen2.5-VL 3B/7B上比GRPO高出10.6%,在7个视觉推理基准上达到开源SOTA。

研究背景与动机

  1. CoT对LVLM至关重要:视觉链式思维(CoT)是提升大视觉语言模型可解释性和可靠性的核心能力,但现有训练方法在泛化性上存在明显瓶颈
  2. SFT的局限:监督微调依赖teacher-forcing式log-likelihood,只能"模仿"参考推理链,缺乏探索能力
  3. PPO/GRPO的限制:KL惩罚强制策略接近SFT基线,限制了发现新推理路径的能力;且容易出现reward hacking——模型获得高分却并未真正解决问题
  4. 确定性采样不足:现有方法将推理视为确定性生成过程,无法捕捉推理轨迹的多样性和不确定性
  5. 推理时缩放代价高:Best-of-N和Beam Search等方法需要额外的奖励模型评估,计算成本高且依赖有偏的critic模型
  6. 长序列token级奖励计算困难:多模态推理链通常长达~1k tokens,逐token计算精确奖励计算量巨大

方法详解

LaCoT将视觉推理建模为潜变量模型的后验推断:给定问题-答案对(X,Y),目标是从后验P(Z|X,Y)中采样潜在推理链Z。整体框架包含三个核心创新:

1. Token级边际奖励近似(ISubTB)

  • 在完整推理链中每隔λ=8个token计算一次真实奖励R(z₁:t⊤)=log P(Xz₁:tY)
  • 中间步骤使用线性插值近似:R̃(z₁:t+i⊤) = R(z₁:t⊤) + (i/λ)·[R(z₁:t+λ⊤) - R(z₁:t⊤)]
  • 理论证明:当λ足够短时,插值误差趋近0且流一致性条件成立
  • 将SubTB损失中的精确奖励替换为近似奖励,得到ISubTB目标函数

2. 参考引导GFlowNet微调(RGFN)

  • 从策略模型qθ(Z|X)探索m个候选推理链{Z₁,...,Zm}
  • 用参考推理链Zref(来自GPT-4o/DeepSeek-R1生成的CoT)作为锚点
  • 指示函数𝕀(Zi)过滤掉奖励低于δs·R(Zref)的候选,防止灾难性遗忘
  • 退火系数δs随训练步数逐渐收紧:前50步容忍更多探索,之后逐步提高标准
  • 仅对"优于参考"的样本反传梯度,无需手调KL惩罚或梯度裁剪

3. 贝叶斯推理缩放(BiN)

  • 采样N个潜在推理链Zi ~ qθ(Z|X),每个生成对应答案Yi ~ πΦ(Y|XZi)
  • 计算长度归一化的联合似然:P(Yi|X) ~ (1/N)·Σ[πΦ(ZiYi|X)/|ZiYi|]
  • 选择边际似然最高的答案作为最终输出
  • 无需外部奖励模型,基于贝叶斯采样原理实现统计上稳健的答案选择

训练细节

  • 基座:Qwen2.5-VL-3B/7B,先SFT得到πΦ作为奖励模型和初始化
  • 策略模型用LoRA训练(r=64, alpha=128),仅用3k个视觉推理样本
  • 引入新角色token"Analyzer"使模型可选择性地提供推理步骤

实验关键数据

模型 MathVista MathVision MathVerse(V-only) MMMU(val) MMMU-pro MMVet MME
GPT-4o 60.0 30.4 40.6 70.7 51.9 69.1 2329
Qwen2.5-VL-7B 63.7 25.4 38.2 50.0 34.6 70.5 2333
R1-Onevision(GRPO) 64.1 23.9 37.8 47.9 28.2 71.1 1111
LaCoT-Qwen-7B 68.4 24.9 43.3 54.9 35.3 74.2 2372
LaCoT-Qwen-3B 63.2 20.7 40.0 48.8 28.9 69.6 2208
推理缩放方法 MathVerse MathVista MMMU MMVet
3B w/ BoN 21.2 57.1 44.7 67.1
3B w/ BiN 40.0 63.2 48.8 69.6
7B w/ BoN 26.5 62.2 47.3 71.2
7B w/ BiN 39.7 68.4 54.9 74.2

亮点

  • 理论创新深刻:将CoT推理建模为变分推断问题,用GFlowNets的SubTB目标实现摊销后验采样,理论基础扎实
  • 3B超越7B:LaCoT-3B在MathVerse上跳升14点超越所有7B模型(含LLaVA-CoT-11B),证明采样多样性比模型规模更重要
  • BiN远超BoN:MathVerse上BiN比BoN高出约15-18个百分点,且无需外部奖励模型
  • 参考引导探索优雅:RGFN用退火式过滤代替KL惩罚,既保证探索又防止灾难性遗忘,减少了梯度方差
  • 训练高效:仅用3k样本+LoRA微调即可获得显著提升

局限性

  • 受限于资源,仅在≤7B模型上验证,更大模型效果未知
  • 在MathVision(真实数学竞赛题,手写/低分辨率图表)上提升有限,表明OCR和视觉定位仍是瓶颈
  • 作为on-policy方法,长序列复杂潜变量的探索依然具有挑战性(内存和时间成本)
  • 未解决幻觉问题——尽管增加采样N可缓解,但并非根治
  • 奖励函数依赖SFT模型的似然值质量,如果SFT阶段学得不好会传导误差

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将GFlowNets引入LVLM推理的概率建模是非常新颖的视角,理论推导完整
  • 实验充分度: ⭐⭐⭐⭐ 7个基准全面测评,消融实验覆盖主要组件,但缺少更大模型验证
  • 写作质量: ⭐⭐⭐⭐ 公式推导清晰,图表直观,但部分符号引入较密集
  • 价值: ⭐⭐⭐⭐⭐ 为视觉推理提供了全新范式,BiN推理缩放方法可直接应用于任意推理LVLM