跳转至

Balanced Thinking: Improving Chain of Thought Training in Vision Language Models

日期: 2026-03-19
arXiv: 2603.18656
代码: GitHub
领域: 多模态/VLM / LLM推理
关键词: 链式思维训练, 自适应损失, SFT优化, 推理-答案平衡, VLM推理

一句话总结

提出 SCALe-SFT(Scheduled Curriculum Adaptive Loss),通过在 SFT 阶段动态调整 think 和 answer 段的损失权重(从重推理逐渐转向重答案),解决推理数据中 token 不均衡问题,仅 SFT 即可匹配 SFT+GRPO 的效果且节省 ~6/7 训练时间。

研究背景与动机

  1. 领域现状: VLM 推理能力训练遵循两阶段范式:SFT(学推理格式)→ GRPO/RL(优化答案质量)。推理数据格式为 <think>...</think><answer>...</answer>

  2. 现有痛点: 标准 SFT 对所有 token 均匀计算 cross-entropy 损失——但推理数据天生不均衡:<think> 段通常是 <answer> 段的 150× 长。结果:(a) 模型学会了冗长的推理但答案准确率差;(b) 推理风格优先于答案正确性。

  3. 核心矛盾: 均匀损失让长推理段主导梯度信号——模型被训练得"写得好听但答得不对"。

  4. 核心 idea: 将损失分为 reason 和 answer 两部分,用余弦调度动态调整权重——训练初期重 think(学格式),后期重 answer(学正确性)。

方法详解

SCALe-SFT

核心公式: $\(\mathcal{L}_{\text{SCALe}} = w_{\text{think}}(t) \cdot \mathcal{L}_{\text{think}} + w_{\text{answer}}(t) \cdot \mathcal{L}_{\text{answer}}\)$

  • 训练初期:\(w_{\text{think}}\) 高,\(w_{\text{answer}}\) 低 → 学习推理结构
  • 训练后期:\(w_{\text{think}}\) 低,\(w_{\text{answer}}\) 高 → 聚焦答案准确率
  • 权重变化遵循余弦调度

语义:从"先学怎么想"到"最终学答对"——模拟人类学习过程。

设计动机

  1. 长度归一化:每段损失独立计算后加权——避免长推理段因纯粹的 token 数量优势主导
  2. 课程学习:不是始终重答案(那会使推理质量差),而是先建立推理基础再转向精确
  3. 极致简洁:不改架构、不改数据、不改推理——只改损失函数权重的时间调度

实验关键数据

ScienceQA + IconQA

模型 Base SFT SCALe-SFT GRPO SCALe+GRPO
LLaVA-v1.6-7B SciQA 72.58 80.17 82.60 80.86 83.39
LLaVA-v1.6-7B IconQA 37.39 67.47 68.25 68.21 69.17
Gemma-3-4b SciQA 77.68 85.77 85.92 85.18 86.37
Qwen2.5-VL-3B SciQA - - +2-3% - +5%

核心结论: - SCALe-SFT 一致超越 vanilla SFT (+1-3%) - SCALe-SFT 单独 ≈ SFT+GRPO 效果(省 ~6/7 训练时间) - SCALe+GRPO 达到最佳(最高 +5%)

训练效率

方案 训练时间 性能
SCALe-SFT alone ≈ SFT+GRPO
SFT + GRPO ~7× 基线
SCALe + GRPO ~7× 最优

亮点与洞察

  • "token 不均衡"是个被忽略的问题:推理数据中 think 段 150× 长于 answer——这意味着 99.3% 的梯度信号来自推理 token,答案只贡献 0.7%。SCALe 用段级加权修复了这一结构性偏差。
  • SFT 阶段被低估了:社区关注集中在 RL(GRPO/DPO),但 SCALe 表明改进 SFT 可以达到类似效果,且成本低 7×——对于计算受限的场景尤其有价值。
  • 课程学习的自然对应:先学推理格式再学答案正确性,与人类"先理解过程再掌握结果"的学习路径吻合。
  • 方法通用性:不依赖任何特定架构或数据集——任何有 think/answer 分段的推理训练都可以应用。

局限性 / 可改进方向

  • 只验证了分类/QA 任务:在开放式生成(如创意写作、代码生成)上效果未知
  • 调度策略固定为余弦:不同任务可能需要不同的调度曲线(如线性、阶梯)
  • 假设 think/answer 可清晰分段:某些推理格式(如无显式标签的自由文本 CoT)不适用

相关工作与启发

  • vs Vision-R1: Vision-R1 提出了 SFT+GRPO 两阶段管线,SCALe 改进其 SFT 阶段——两者互补
  • vs token-level reward shaping: RL 阶段的过程奖励(PRM)在 token 级别给信号,SCALe 在 SFT 阶段的段级别做类似事情——更简单更高效
  • 启发:对任何有结构化输出(推理+答案/代码+测试)的训练都可以考虑段级自适应损失

评分

  • 新颖性: ⭐⭐⭐⭐ 问题定义清晰(token 不均衡),解法简洁(段级余弦调度)
  • 实验充分度: ⭐⭐⭐⭐ 3 个模型 × 多基准 + 消融 + 与 GRPO 组合
  • 写作质量: ⭐⭐⭐⭐⭐ 图示直观,动机一目了然
  • 价值: ⭐⭐⭐⭐⭐ 简单实用,计算节省 7×,对推理训练社区有广泛适用性