Balanced Thinking: Improving Chain of Thought Training in Vision Language Models¶

日期: 2026-03-19
arXiv: 2603.18656
代码: GitHub
领域: 多模态/VLM / LLM推理
关键词: 链式思维训练, 自适应损失, SFT优化, 推理-答案平衡, VLM推理

一句话总结¶

提出 SCALe-SFT（Scheduled Curriculum Adaptive Loss），通过在 SFT 阶段动态调整 think 和 answer 段的损失权重（从重推理逐渐转向重答案），解决推理数据中 token 不均衡问题，仅 SFT 即可匹配 SFT+GRPO 的效果且节省 ~6/7 训练时间。

研究背景与动机¶

领域现状: VLM 推理能力训练遵循两阶段范式：SFT（学推理格式）→ GRPO/RL（优化答案质量）。推理数据格式为 <think>...</think><answer>...</answer>。
现有痛点: 标准 SFT 对所有 token 均匀计算 cross-entropy 损失——但推理数据天生不均衡：<think> 段通常是 <answer> 段的 150× 长。结果：(a) 模型学会了冗长的推理但答案准确率差；(b) 推理风格优先于答案正确性。
核心矛盾: 均匀损失让长推理段主导梯度信号——模型被训练得"写得好听但答得不对"。
核心 idea: 将损失分为 reason 和 answer 两部分，用余弦调度动态调整权重——训练初期重 think（学格式），后期重 answer（学正确性）。

方法详解¶

SCALe-SFT¶

核心公式： $$\mathcal{L}_{\text{SCALe}} = w_{\text{think}}(t) \cdot \mathcal{L}_{\text{think}} + w_{\text{answer}}(t) \cdot \mathcal{L}_{\text{answer}}$$

训练初期：$w_{\text{think}}$ 高，$w_{\text{answer}}$ 低 → 学习推理结构
训练后期：$w_{\text{think}}$ 低，$w_{\text{answer}}$ 高 → 聚焦答案准确率
权重变化遵循余弦调度

语义：从"先学怎么想"到"最终学答对"——模拟人类学习过程。

设计动机¶

长度归一化：每段损失独立计算后加权——避免长推理段因纯粹的 token 数量优势主导
课程学习：不是始终重答案（那会使推理质量差），而是先建立推理基础再转向精确
极致简洁：不改架构、不改数据、不改推理——只改损失函数权重的时间调度

实验关键数据¶

ScienceQA + IconQA¶

模型	Base	SFT	SCALe-SFT	GRPO	SCALe+GRPO
LLaVA-v1.6-7B SciQA	72.58	80.17	82.60	80.86	83.39
LLaVA-v1.6-7B IconQA	37.39	67.47	68.25	68.21	69.17
Gemma-3-4b SciQA	77.68	85.77	85.92	85.18	86.37
Qwen2.5-VL-3B SciQA	-	-	+2-3%	-	+5%

核心结论： - SCALe-SFT 一致超越 vanilla SFT (+1-3%) - SCALe-SFT 单独 ≈ SFT+GRPO 效果（省 ~6/7 训练时间） - SCALe+GRPO 达到最佳（最高 +5%）

训练效率¶

方案	训练时间	性能
SCALe-SFT alone	1×	≈ SFT+GRPO
SFT + GRPO	~7×	基线
SCALe + GRPO	~7×	最优

亮点与洞察¶

"token 不均衡"是个被忽略的问题：推理数据中 think 段 150× 长于 answer——这意味着 99.3% 的梯度信号来自推理 token，答案只贡献 0.7%。SCALe 用段级加权修复了这一结构性偏差。
SFT 阶段被低估了：社区关注集中在 RL（GRPO/DPO），但 SCALe 表明改进 SFT 可以达到类似效果，且成本低 7×——对于计算受限的场景尤其有价值。
课程学习的自然对应：先学推理格式再学答案正确性，与人类"先理解过程再掌握结果"的学习路径吻合。
方法通用性：不依赖任何特定架构或数据集——任何有 think/answer 分段的推理训练都可以应用。

局限性 / 可改进方向¶

只验证了分类/QA 任务：在开放式生成（如创意写作、代码生成）上效果未知
调度策略固定为余弦：不同任务可能需要不同的调度曲线（如线性、阶梯）
假设 think/answer 可清晰分段：某些推理格式（如无显式标签的自由文本 CoT）不适用

评分¶

新颖性: ⭐⭐⭐⭐ 问题定义清晰（token 不均衡），解法简洁（段级余弦调度）
实验充分度: ⭐⭐⭐⭐ 3 个模型 × 多基准 + 消融 + 与 GRPO 组合
写作质量: ⭐⭐⭐⭐⭐ 图示直观，动机一目了然
价值: ⭐⭐⭐⭐⭐ 简单实用，计算节省 7×，对推理训练社区有广泛适用性