Entropy-based Exploration Conduction for Multi-step Reasoning¶
会议: ACL 2025 | arXiv: 2503.15848 | 代码: 无 | 领域: 模型压缩 | 关键词: 多步推理, 熵, 探索深度, 动态调整, ε-greedy
一句话总结¶
提出 Entro-duction 方法,通过监控 LLM 推理过程中输出的熵和方差熵变化来动态调整探索深度,使用 \(\epsilon\)-greedy 策略选择加深、扩展或停止三种探索行为,在避免冗余推理的同时提升推理准确率。
研究背景与动机¶
1. 领域现状¶
LLM 的多步推理能力在复杂任务中至关重要。Chain-of-Thought (CoT)、Tree-of-Thought (ToT) 等结构化推理方法已展示出显著效果,但这些方法的推理深度和宽度高度依赖预定义设置,不同任务间差异巨大。
2. 现有痛点¶
- 过度推理(Over-reasoning):在简单问题上浪费大量计算步骤
- 不足推理(Under-reasoning):在复杂问题上过早停止,遗漏关键推理路径
- 预定义深度的刚性:CoT 固定 5-8 步,ToT 固定层数和分支数,无法自适应
- 结果导向优化:基于 RL 的后训练方法代价高昂、任务特定化
3. 核心矛盾¶
推理探索深度与任务复杂度之间的匹配失调——相同的推理结构无法同时适用于简单和复杂任务,但 LLM 仅凭参数知识难以准确判断所需的探索深度。
4. 本文要解决什么¶
如何让 LLM 在推理过程中自动、透明地判断当前探索是否充分,并据此动态调整后续探索策略?
5. 切入角度¶
利用 LLM 输出的 logits 中蕴含的不确定性信息——通过计算每步推理的熵和方差熵来量化模型的推理状态,基于熵变化自动切换探索行为。
6. 核心 idea 一句话¶
用推理步骤的输出熵表征模型的推理不确定性,用方差熵表征推理的稳定性,根据二者的变化趋势通过 \(\epsilon\)-greedy 策略动态选择加深/扩展/停止探索。
方法详解¶
整体框架¶
Entro-duction 在每个推理步骤中: 1. 计算当前步的归一化熵和归一化方差熵 2. 与前一步比较,获得变化量 \((\Delta H, \Delta \sigma_H^2)\) 3. 根据状态映射函数确定最佳行为 4. 通过 \(\epsilon\)-greedy 采样实际执行的行为
关键设计¶
推理状态评估——熵度量¶
熵(Entropy)度量当前推理步的不确定性。对于推理步骤 \(\mathcal{T}_{i,j}\) 由 \(n\) 个 token 组成,每个 token \(t_{ijk}\) 对应 logit \(l_{ijk}\):
归一化熵:\(\tilde{H}(\mathcal{T}_{i,j}) = \frac{H(\mathcal{T}_{i,j})}{\log_2(n)}\),范围 \([0, 1]\)。
方差熵度量推理稳定性¶
方差熵捕捉了单个推理步内部 token 级别不确定性的波动程度。
四种推理状态与行为映射¶
| 熵变化 | 方差熵变化 | 含义 | 对应行为 |
|---|---|---|---|
| \(\Delta H < 0\) | \(\Delta \sigma^2 < 0\) | 推理确定性增强,过程稳定 | Deepen |
| \(\Delta H > 0\) | \(\Delta \sigma^2 < 0\) | 更多可能性但方向未发散 | Deepen |
| \(\Delta H < 0\) | \(\Delta \sigma^2 > 0\) | 不确定性降低但局部出现分歧 | Expand |
| \(\Delta H > 0\) | \(\Delta \sigma^2 > 0\) | 推理复杂且不稳定 | Stop |
三种探索行为¶
- Deepen:在当前推理链上添加新节点 \(\mathcal{T}_{i,j+1}\),继续深入
- Expand:当前推理链分裂为两条,分别生成新节点 \(\mathcal{T}_{i,j+1}\) 和 \(\mathcal{T}'_{i,j+1}\)
- Stop:终止当前链的扩展
\(\epsilon\)-greedy 行为选择¶
以 \(1-\epsilon\) 概率执行映射函数推荐的最佳行为 \(a_j^*\),以 \(\frac{\epsilon}{2}\) 概率随机探索其他行为。最终通过投票机制 \(L = V(\mathcal{S}, \mathcal{R})\) 确定推理结论。
软停止机制¶
在收到 Stop 信号后不立即终止,而是再推理 1-2 步后停止,避免在复杂任务中过早终止。
损失函数/训练策略¶
无需训练,纯推理时方法。基于 LLaMA-3.1-8B-Instruct,温度 0.7,最大 128 tokens。
实验关键数据¶
主实验¶
| 方法 | GSM8K | SVAMP | StrategyQA | CSQA | 平均 |
|---|---|---|---|---|---|
| CoT | 75.2 (8步) | 83.4 (8步) | 57.7 (5步) | 75.6 (5步) | — |
| CoT-SC@maj8 | 78.1 (24步) | 87.5 (24步) | 68.3 (15步) | 78.2 (15步) | — |
| CoT-SC@maj64 | 80.2 (24步) | 89.6 (24步) | 67.1 (15步) | 78.7 (15步) | — |
| ToT | 72.6 (121步) | 83.3 (121步) | 65.8 (121步) | 73.5 (121步) | — |
| Complex CoT | 81.4 (8步) | 86.2 (8步) | 65.7 (5步) | 73.9 (5步) | — |
| DRR | 83.0 | 90.2 | 67.7 | 82.1 | — |
| Entro-duction | 85.4 (9.5步) | 92.0 (11.2步) | 70.3 (9.6步) | 79.6 (7.1步) | — |
消融实验¶
| 配置 | GSM8K | SVAMP | StrategyQA | CSQA |
|---|---|---|---|---|
| Base(无调整) | ~72 | ~82 | ~55 | ~72 |
| 仅 Entropy | ~77 | ~85 | ~60 | ~74 |
| 仅 Variance | ~78 | ~86 | ~62 | ~75 |
| Both(完整) | ~85 | ~92 | ~70 | ~80 |
关键发现¶
- 准确率与步数的双赢:Entro-duction 以 9.5-11.2 步达到 85.4-92.0 的准确率,远少于 ToT 的 121 步且准确率更高
- GSM8K 85.4% > DRR 83.0%:超越了需要额外训练的 DRR 方法
- SVAMP 92.0%:在简单数学推理上效果尤为突出
- 熵和方差熵缺一不可:单独使用任一指标的效果都不如联合使用
- Expand 行为至关重要:去掉 Expand 后在需要多路径探索的任务上性能显著下降
- 软停止 > 硬停止:Stop@2/3 的性能远优于立即停止(Hard Stop)
- \(\epsilon = 0.25\) 最优:数学任务需要更多探索,常识任务需要更精确的决策
亮点与洞察¶
- 透明且可解释的推理调控:基于熵变化的行为选择直觉清晰,不需要黑箱式的自我反思
- 零训练开销:完全在推理时工作,无需任何额外训练或微调
- 双维度度量的互补性:熵捕捉"是否确定",方差熵捕捉"是否稳定",二者联合提供了推理状态的全面描述
- 自适应推理深度:不同任务自动获得不同的平均推理步数(数学 9.5-11.2 步,常识 7.1-9.6 步)
- 软停止机制的实用性:简单的延迟终止策略显著避免了过早停止的问题
局限性/可改进方向¶
- 仅在 LLaMA-3.1-8B 上实验,泛化到不同规模和架构的 LLM 有待验证
- 四种推理状态到三种行为的映射是手工设计的规则,未考虑更精细的状态空间
- \(\epsilon\) 参数需要手动调优,不同任务可能需要不同的 \(\epsilon\) 值
- 仅在 4 个基准数据集上验证,不涵盖更复杂的现实世界推理场景
- 熵度量仅使用 token 级概率,未捕捉语义层面的不确定性
- 多链投票的最终决策策略较简单(多数投票),可能不是最优的聚合方式
相关工作与启发¶
- CoT / CoT-SC / ToT:经典推理结构,Entro-duction 为其提供了自适应深度调整能力
- Semantic Entropy (Farquhar et al., 2024):利用语义熵检测 LLM 幻觉,启发了本文用熵度量推理状态的思路
- DRR (Yang et al., 2024):通过蒸馏和强化学习优化推理深度,但需要额外训练
- Self-talk (Shwartz et al., 2020):通过生成探索性问题增强推理,但不自适应
- 启发:LLM 输出的 logits 蕴含丰富的推理状态信息,可用于免训练的推理过程控制
评分¶
- 新颖性: ⭐⭐⭐⭐ — 熵引导推理深度的思路新颖,双维度度量设计有洞察
- 实验充分度: ⭐⭐⭐ — 4 个数据集,消融详细,但仅一个模型,任务类型有限
- 写作质量: ⭐⭐⭐⭐ — 数学形式化严谨,四种状态的分析清晰
- 综合价值: ⭐⭐⭐⭐ — 为多步推理提供了轻量、透明、免训练的深度控制方案,实用潜力大