Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models¶

日期: 2026-03-11
arXiv: 2603.10335
代码: 无
领域: 多模态VLM / LLM效率
关键词: chain-of-thought, CoT length prediction, KV cache, steering vector, test-time scaling

一句话总结¶

提出 Fuel Gauge，首个运行时 CoT 长度预测框架——发现 LMM 内部存在"燃料信号"指示推理剩余长度，用 82K 参数的微型网络提取该信号，实现预测性 KV 缓存分配（内存分配频率降低 13.37 倍）和 CoT 长度调控（缓解过度/不足思考）。

研究背景与动机¶

领域现状: 推理型 LMM（DeepSeek-R1、Qwen3 等）通过 CoT 实现复杂推理，但 CoT 长度不可预测且常过长（可达 28K token）。
现有痛点: 不可预测的 CoT 长度导致两个问题——(1) 计算效率：反复小块分配 KV 缓存导致内存碎片化 (2) 质量：模型可能过度思考（简单问题浪费 token）或不足思考（复杂问题推理不充分）。
核心矛盾: CoT 的自回归本质使最终长度先验未知，无法提前干预。
核心 idea: 类比人脑的能量化学信号——LMM 内部存在隐含的"燃料水平"信号，推理开始时高、结束时趋零。用微型网络提取并预测 CoT 长度。

方法详解¶

整体框架¶

观察：CoT 长度服从伯努利过程，可先验预测。用 82K 参数的微型网络从 LMM 中间层隐状态提取"燃料信号"，根据消耗速率估计总长度。

关键设计¶

燃料信号提取:
- 从 LMM 特定层的隐状态中提取与 CoT 进度相关的线性信号
- 信号行为独立于具体生成的样本——通用性强
- 仅 82K 参数的探针网络，开销可忽略
下游应用一：预测性 KV 缓存分配:
- 提前预测 CoT 长度 → 一次性分配足够大的连续内存块
- 避免反复小块分配造成的内存碎片化
- GPQA-Diamond 上预测误差不到基线一半 → 内存分配频率降低 13.37 倍
下游应用二：CoT 长度调控:
- 基于燃料信号构建引导向量（类似扩散模型的 classifier guidance）
- 增加/减少燃料注入来拉长/缩短 CoT
- 缓解过度思考和不足思考——首次实现 test-time scaling 的 CoT 长度控制

实验关键数据¶

CoT 长度预测¶

基准	基线误差	Fuel Gauge 误差	改善
GPQA-Diamond	X	<X/2	>50%
多模态任务	较高	显著更低	一致提升

下游应用¶

应用	指标	改善
KV 缓存分配	分配频率	降低 13.37×
CoT 长度调控	过度思考率	显著降低

关键发现¶

LMM 确实存在可检测的内部"推理进度"信号——验证了"燃料"假设
该信号跨模型、跨模态（纯文本/图文/视频文本）具有普遍性
82K 参数足够提取信号——无需大型辅助模型
首次将 classifier guidance 思路应用于 CoT 长度控制

亮点与洞察¶

"燃料"隐喻精妙: 将 CoT 进度信号类比为大脑能量化学物质，直觉和实验都很有说服力
双应用闭环: 同一信号既服务效率（缓存分配）又服务质量（长度调控），一鱼两吃
极低开销: 82K 参数探针，不修改原模型，即插即用

局限性 / 可改进方向¶

长度预测的误差对极长 CoT（>20K）可能放大
长度调控对最终回答质量的影响需要更系统评估
仅在推理模型上验证，普通 LLM 可能无此信号

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首创 CoT 长度先验预测，洞察深刻
实验充分度: ⭐⭐⭐⭐ 多模型×多模态×双应用验证
写作质量: ⭐⭐⭐⭐⭐ 叙事流畅，类比精妙
价值: ⭐⭐⭐⭐⭐ 对 LMM serving 和推理效率有直接实用价值