跳转至

Entropy-based Exploration Conduction for Multi-step Reasoning

会议: ACL 2025 | arXiv: 2503.15848 | 代码: 无 | 领域: 模型压缩 | 关键词: 多步推理, 熵, 探索深度, 动态调整, ε-greedy

一句话总结

提出 Entro-duction 方法,通过监控 LLM 推理过程中输出的熵和方差熵变化来动态调整探索深度,使用 \(\epsilon\)-greedy 策略选择加深、扩展或停止三种探索行为,在避免冗余推理的同时提升推理准确率。

研究背景与动机

1. 领域现状

LLM 的多步推理能力在复杂任务中至关重要。Chain-of-Thought (CoT)、Tree-of-Thought (ToT) 等结构化推理方法已展示出显著效果,但这些方法的推理深度和宽度高度依赖预定义设置,不同任务间差异巨大。

2. 现有痛点

  • 过度推理(Over-reasoning):在简单问题上浪费大量计算步骤
  • 不足推理(Under-reasoning):在复杂问题上过早停止,遗漏关键推理路径
  • 预定义深度的刚性:CoT 固定 5-8 步,ToT 固定层数和分支数,无法自适应
  • 结果导向优化:基于 RL 的后训练方法代价高昂、任务特定化

3. 核心矛盾

推理探索深度与任务复杂度之间的匹配失调——相同的推理结构无法同时适用于简单和复杂任务,但 LLM 仅凭参数知识难以准确判断所需的探索深度。

4. 本文要解决什么

如何让 LLM 在推理过程中自动、透明地判断当前探索是否充分,并据此动态调整后续探索策略?

5. 切入角度

利用 LLM 输出的 logits 中蕴含的不确定性信息——通过计算每步推理的熵和方差熵来量化模型的推理状态,基于熵变化自动切换探索行为。

6. 核心 idea 一句话

用推理步骤的输出熵表征模型的推理不确定性,用方差熵表征推理的稳定性,根据二者的变化趋势通过 \(\epsilon\)-greedy 策略动态选择加深/扩展/停止探索。

方法详解

整体框架

Entro-duction 在每个推理步骤中: 1. 计算当前步的归一化熵归一化方差熵 2. 与前一步比较,获得变化量 \((\Delta H, \Delta \sigma_H^2)\) 3. 根据状态映射函数确定最佳行为 4. 通过 \(\epsilon\)-greedy 采样实际执行的行为

关键设计

推理状态评估——熵度量

熵(Entropy)度量当前推理步的不确定性。对于推理步骤 \(\mathcal{T}_{i,j}\)\(n\) 个 token 组成,每个 token \(t_{ijk}\) 对应 logit \(l_{ijk}\)

\[p_{ijk} = \frac{\exp(l_{ijk})}{\sum_{r=1}^{n}\exp(l_{ijr})}\]
\[H(\mathcal{T}_{i,j}) = -\sum_{k=1}^{n} p_{ijk}\log_2(p_{ijk})\]

归一化熵\(\tilde{H}(\mathcal{T}_{i,j}) = \frac{H(\mathcal{T}_{i,j})}{\log_2(n)}\),范围 \([0, 1]\)

方差熵度量推理稳定性

\[\sigma_H^2(\mathcal{T}_{i,j}) = \frac{1}{n}\sum_{k=1}^{n}\left[H(t_{ijk}) - \bar{H}(\mathcal{T}_{i,j})\right]^2\]

方差熵捕捉了单个推理步内部 token 级别不确定性的波动程度。

四种推理状态与行为映射

熵变化 方差熵变化 含义 对应行为
\(\Delta H < 0\) \(\Delta \sigma^2 < 0\) 推理确定性增强,过程稳定 Deepen
\(\Delta H > 0\) \(\Delta \sigma^2 < 0\) 更多可能性但方向未发散 Deepen
\(\Delta H < 0\) \(\Delta \sigma^2 > 0\) 不确定性降低但局部出现分歧 Expand
\(\Delta H > 0\) \(\Delta \sigma^2 > 0\) 推理复杂且不稳定 Stop

三种探索行为

  • Deepen:在当前推理链上添加新节点 \(\mathcal{T}_{i,j+1}\),继续深入
  • Expand:当前推理链分裂为两条,分别生成新节点 \(\mathcal{T}_{i,j+1}\)\(\mathcal{T}'_{i,j+1}\)
  • Stop:终止当前链的扩展

\(\epsilon\)-greedy 行为选择

\[\pi_j(a|\mathbf{s}_j) = \begin{cases} 1 - \epsilon, & a = a_j^* \\ \frac{\epsilon}{|\mathcal{A}| - 1}, & a \neq a_j^* \end{cases}\]

\(1-\epsilon\) 概率执行映射函数推荐的最佳行为 \(a_j^*\),以 \(\frac{\epsilon}{2}\) 概率随机探索其他行为。最终通过投票机制 \(L = V(\mathcal{S}, \mathcal{R})\) 确定推理结论。

软停止机制

在收到 Stop 信号后不立即终止,而是再推理 1-2 步后停止,避免在复杂任务中过早终止。

损失函数/训练策略

无需训练,纯推理时方法。基于 LLaMA-3.1-8B-Instruct,温度 0.7,最大 128 tokens。

实验关键数据

主实验

方法 GSM8K SVAMP StrategyQA CSQA 平均
CoT 75.2 (8步) 83.4 (8步) 57.7 (5步) 75.6 (5步)
CoT-SC@maj8 78.1 (24步) 87.5 (24步) 68.3 (15步) 78.2 (15步)
CoT-SC@maj64 80.2 (24步) 89.6 (24步) 67.1 (15步) 78.7 (15步)
ToT 72.6 (121步) 83.3 (121步) 65.8 (121步) 73.5 (121步)
Complex CoT 81.4 (8步) 86.2 (8步) 65.7 (5步) 73.9 (5步)
DRR 83.0 90.2 67.7 82.1
Entro-duction 85.4 (9.5步) 92.0 (11.2步) 70.3 (9.6步) 79.6 (7.1步)

消融实验

配置 GSM8K SVAMP StrategyQA CSQA
Base(无调整) ~72 ~82 ~55 ~72
仅 Entropy ~77 ~85 ~60 ~74
仅 Variance ~78 ~86 ~62 ~75
Both(完整) ~85 ~92 ~70 ~80

关键发现

  1. 准确率与步数的双赢:Entro-duction 以 9.5-11.2 步达到 85.4-92.0 的准确率,远少于 ToT 的 121 步且准确率更高
  2. GSM8K 85.4% > DRR 83.0%:超越了需要额外训练的 DRR 方法
  3. SVAMP 92.0%:在简单数学推理上效果尤为突出
  4. 熵和方差熵缺一不可:单独使用任一指标的效果都不如联合使用
  5. Expand 行为至关重要:去掉 Expand 后在需要多路径探索的任务上性能显著下降
  6. 软停止 > 硬停止:Stop@2/3 的性能远优于立即停止(Hard Stop)
  7. \(\epsilon = 0.25\) 最优:数学任务需要更多探索,常识任务需要更精确的决策

亮点与洞察

  • 透明且可解释的推理调控:基于熵变化的行为选择直觉清晰,不需要黑箱式的自我反思
  • 零训练开销:完全在推理时工作,无需任何额外训练或微调
  • 双维度度量的互补性:熵捕捉"是否确定",方差熵捕捉"是否稳定",二者联合提供了推理状态的全面描述
  • 自适应推理深度:不同任务自动获得不同的平均推理步数(数学 9.5-11.2 步,常识 7.1-9.6 步)
  • 软停止机制的实用性:简单的延迟终止策略显著避免了过早停止的问题

局限性/可改进方向

  1. 仅在 LLaMA-3.1-8B 上实验,泛化到不同规模和架构的 LLM 有待验证
  2. 四种推理状态到三种行为的映射是手工设计的规则,未考虑更精细的状态空间
  3. \(\epsilon\) 参数需要手动调优,不同任务可能需要不同的 \(\epsilon\)
  4. 仅在 4 个基准数据集上验证,不涵盖更复杂的现实世界推理场景
  5. 熵度量仅使用 token 级概率,未捕捉语义层面的不确定性
  6. 多链投票的最终决策策略较简单(多数投票),可能不是最优的聚合方式

相关工作与启发

  • CoT / CoT-SC / ToT:经典推理结构,Entro-duction 为其提供了自适应深度调整能力
  • Semantic Entropy (Farquhar et al., 2024):利用语义熵检测 LLM 幻觉,启发了本文用熵度量推理状态的思路
  • DRR (Yang et al., 2024):通过蒸馏和强化学习优化推理深度,但需要额外训练
  • Self-talk (Shwartz et al., 2020):通过生成探索性问题增强推理,但不自适应
  • 启发:LLM 输出的 logits 蕴含丰富的推理状态信息,可用于免训练的推理过程控制

评分

  • 新颖性: ⭐⭐⭐⭐ — 熵引导推理深度的思路新颖,双维度度量设计有洞察
  • 实验充分度: ⭐⭐⭐ — 4 个数据集,消融详细,但仅一个模型,任务类型有限
  • 写作质量: ⭐⭐⭐⭐ — 数学形式化严谨,四种状态的分析清晰
  • 综合价值: ⭐⭐⭐⭐ — 为多步推理提供了轻量、透明、免训练的深度控制方案,实用潜力大