Cautious Next Token Prediction¶

会议: ACL 2025 arXiv: 2507.03038 代码: 有领域: NLP / LLM推理 关键词: 解码策略, 熵自适应采样, 困惑度排序, training-free, LLM推理

一句话总结¶

提出 Cautious Next Token Prediction (CNTP)，一种无需训练的自适应解码策略：在模型预测熵较高（不确定）时采样多条候选路径至标点处，选择困惑度最低的路径作为最终续写，从而在不牺牲多样性的前提下显著提升准确性。

研究背景与动机¶

当前主流 LLM 解码策略（top-p/nucleus sampling + 温度缩放）是"工业默认"，但在模型不确定时容易生成不连贯或错误的内容
贪心解码：确定性强但缺乏多样性，容易陷入局部最优
随机采样：有多样性但不保证连贯性，高不确定步骤容易出错
Beam Search：计算开销大（O(L × B)），且不自适应——对确定和不确定步骤一视同仁
Self-Consistency：需要完整重跑 N_sc 次完整解码，成本 O(N_sc × L)，无法在中间步骤适应
核心洞察来自人类行为：人在解题时遇到不确定步骤会"想更多"、探索多条路径，最终选最有信心的；模型也可以模仿这种"谨慎"策略
已有 CoT、Self-Refinement 等推理时方法多依赖外部反馈或大量采样，缺少一种轻量、自适应、无需训练的解码方案

方法详解¶

整体框架¶

CNTP 的核心循环：每生成一个 token 前计算当前位置的预测熵 → 熵低则正常单 token 采样 → 熵高则独立采样 N 条候选路径至标点 → 计算各路径困惑度 → 选困惑度最低路径拼接到序列 → 继续生成。

关键设计¶

1. 基于熵的不确定性检测¶

给定当前序列 s，计算下一个 token 的概率分布熵：H(s) = -Σ_w p(w|s) log p(w|s)

设定两个阈值 H_min 和 H_max，以及最大试验次数 N_max，将熵线性映射为试验数：

N = max(1, min(N_max, ⌊(H - H_min) / (H_max - H_min) × N_max⌋))

H(s) < H_min：模型很确定，N=1，退化为普通单步采样
H(s) > H_max：模型非常不确定，N=N_max，全力探索

2. 多路径采样与标点停止¶

当 N > 1 时，独立采样 N 条候选路径，每条路径从当前位置开始采样直到遇到标点符号（. ? ! : ; ) ] \n）或满足停止条件。标点停止的设计使 CNTP 在句子级别进行局部最优选择，而非 token 级别或全答案级别。

3. 困惑度排序选择¶

对每条候选路径 s_i，计算句子级困惑度：PPL(s_i) = exp(ℒ(s_i) / |s_i|)，其中 ℒ(s_i) = -Σ_t log p(w_t | s_{<t})

选择困惑度最低的路径作为最佳续写。该策略利用模型自身的似然函数作为"裁判"，无需外部反馈。

4. 与 Self-Consistency 的结合¶

CNTP 可以作为 Self-Consistency 的"内层"优化：在 SC 的每个独立推理链中使用 CNTP 提升单链质量，然后再进行多数投票。因此 CNTP 与 SC 是正交互补的。

复杂度分析¶

方法	复杂度	自适应性
贪心解码	O(L)	无
Beam Search (B)	O(L × B)	无
Self-Consistency (N_sc)	O(N_sc × L)	无
CNTP	O(L × (1 + p(N_max-1)))	有

其中 p 是高熵步骤比例，实际中 p ≪ 1，因此 CNTP 的计算开销远低于 Beam Search 和 SC。

理论保证¶

定理 1：在两个温和假设（正确路径有最低困惑度；高熵意味着正确 token 概率低）下： 1. CNTP 生成正确完整序列的概率 ≥ 单样本解码 2. 平均计算成本严格低于 L × N_max

实验关键数据¶

主实验：Llama-3.1-8B-Instruct¶

方法	GSM8K	MATH	StrategyQA
Greedy Decoding	79.8	41.5	72.9
Stochastic Decoding	79.4±0.8	41.5±1.2	72.0±0.7
CNTP (Ours)	81.6±0.6	47.1±1.7	73.2±0.2
Beam Search (beam=5)	82.3	48.0	72.9
SC (40 paths)	84.8	56.0	76.2
CNTP + SC (40 paths)	85.2	57.5	76.3

DeepSeek-R1-Distill-Qwen-1.5B¶

方法	GSM8K	MATH	StrategyQA
Greedy Decoding	64.6	32.5	53.6
Stochastic Decoding	61.6±1.1	27.9±3.7	51.7±1.2
CNTP (Ours)	65.7±0.7	37.7±1.7	53.0±1.3
SC (40 paths)	78.3	29.5	47.7
CNTP + SC (40 paths)	71.7	41.0	54.1

TruthfulQA (Llama-2-7B-Chat)¶

方法	Info Acc.	Truth Acc.	Truth-info Acc.
Stochastic Decoding	88.0±0.6	78.0±0.5	66.0±0.3
Greedy Decoding	78.5	79.1	57.6
CNTP (Ours)	89.2±1.2	84.8±0.5	74.0±1.1

多模态实验 (MMVet / MathVista)¶

方法	Llama-3.2-11B MMVet	Llama-3.2-11B MathVista
Greedy	48.0	53.5
Stochastic	47.7	53.0
CNTP	53.5 (+5.5)	58.5 (+5.0)

消融实验¶

不确定性度量方式比较：

度量方式	GSM8K	StrategyQA	MATH	TruthfulQA
Max token prob	次优	次优	次优	次优
Max-2nd prob	次优	次优	次优	次优
Entropy (Ours)	最优	最优	最优	最优

试验数与熵的关系策略：

策略	GSM8K	StrategyQA	TruthfulQA
固定试验数 (N=6)	81.1	72.7	3.80
负相关（高熵少试验）	81.2	72.7	3.80
正相关（高熵多试验）	81.6	73.2	74.0

Best-of-N vs CNTP (GSM8K)：

N	2	5	10	20	40
Best-of-N (全答案PPL)	79.2	79.5	78.2	77.3	76.1
CNTP	—	—	81.6	—	—

全答案级困惑度选择不如CNTP的句子级局部选择。

关键发现¶

CNTP 在单链设置下全面超越贪心和随机解码：MATH 上比贪心+5.6%，TruthfulQA 真实性+5.7%
与 SC 正交互补：CNTP+SC 在多数任务上优于纯 SC
熵是最佳不确定性度量：考虑整个词表分布信息，优于基于 top-1/top-2 概率的启发式方法
句子级而非全答案级PPL选择至关重要：Best-of-N 使用全答案 PPL 反而效果退化
多模态同样有效：LLaVA-CoT 和 Llama-3.2-Vision 上均有提升
存在最优 N_max 范围：大约 [10, 30]，过大会出现探索-利用失衡

亮点与洞察¶

人类类比非常直觉且有效：不确定时多想几条路，选最有把握的——这是 CNTP 的核心哲学
句子级局部最优是关键创新：在标点处截断比在 token 级或全答案级都更有效
作为 training-free 方法，CNTP 可即插即用于任何自回归模型，部署成本极低
与 Entropix（并行工作）理念相似但有关键差异：CNTP 的标点停止+正相关采样策略

局限性 / 可改进方向¶

引入额外 token 计算，虽然远低于 Beam Search/SC，但仍增加推理延迟
超参数 H_min=0.01、H_max=1.5、N_max=10 在所有实验中固定，未针对不同任务/模型调优
仅在中等规模模型上验证（≤11B），未在 70B+ 大模型上测试
标点集合的选择可能依赖语言/任务，跨语言泛化性待验证
可结合 speculative decoding 或 vLLM 进一步加速

评分¶

维度	分数
创新性	⭐⭐⭐⭐ 句子级熵自适应采样思路新颖
实验充分度	⭐⭐⭐⭐ 6个数据集+多模型+消融
实用价值	⭐⭐⭐⭐ training-free即插即用
写作质量	⭐⭐⭐⭐ 动机清晰、理论+实验结合
总体推荐	⭐⭐⭐⭐