Entropy-based Exploration Conduction for Multi-step Reasoning¶

会议: ACL 2025 | arXiv: 2503.15848 | 代码: 无 | 领域: 模型压缩 | 关键词: 多步推理, 熵, 探索深度, 动态调整, ε-greedy

一句话总结¶

提出 Entro-duction 方法，通过监控 LLM 推理过程中输出的熵和方差熵变化来动态调整探索深度，使用 \(\epsilon\)-greedy 策略选择加深、扩展或停止三种探索行为，在避免冗余推理的同时提升推理准确率。

研究背景与动机¶

1. 领域现状¶

LLM 的多步推理能力在复杂任务中至关重要。Chain-of-Thought (CoT)、Tree-of-Thought (ToT) 等结构化推理方法已展示出显著效果，但这些方法的推理深度和宽度高度依赖预定义设置，不同任务间差异巨大。

2. 现有痛点¶

过度推理（Over-reasoning）：在简单问题上浪费大量计算步骤
不足推理（Under-reasoning）：在复杂问题上过早停止，遗漏关键推理路径
预定义深度的刚性：CoT 固定 5-8 步，ToT 固定层数和分支数，无法自适应
结果导向优化：基于 RL 的后训练方法代价高昂、任务特定化

3. 核心矛盾¶

推理探索深度与任务复杂度之间的匹配失调——相同的推理结构无法同时适用于简单和复杂任务，但 LLM 仅凭参数知识难以准确判断所需的探索深度。

4. 本文要解决什么¶

如何让 LLM 在推理过程中自动、透明地判断当前探索是否充分，并据此动态调整后续探索策略？

5. 切入角度¶

利用 LLM 输出的 logits 中蕴含的不确定性信息——通过计算每步推理的熵和方差熵来量化模型的推理状态，基于熵变化自动切换探索行为。

6. 核心 idea 一句话¶

用推理步骤的输出熵表征模型的推理不确定性，用方差熵表征推理的稳定性，根据二者的变化趋势通过 \(\epsilon\)-greedy 策略动态选择加深/扩展/停止探索。

方法详解¶

整体框架¶

Entro-duction 在每个推理步骤中： 1. 计算当前步的归一化熵和归一化方差熵 2. 与前一步比较，获得变化量 \((\Delta H, \Delta \sigma_H^2)\) 3. 根据状态映射函数确定最佳行为 4. 通过 \(\epsilon\)-greedy 采样实际执行的行为

关键设计¶

推理状态评估——熵度量¶

熵（Entropy）度量当前推理步的不确定性。对于推理步骤 \(\mathcal{T}_{i,j}\) 由 \(n\) 个 token 组成，每个 token \(t_{ijk}\) 对应 logit \(l_{ijk}\)：

\[p_{ijk} = \frac{\exp(l_{ijk})}{\sum_{r=1}^{n}\exp(l_{ijr})}\]

\[H(\mathcal{T}_{i,j}) = -\sum_{k=1}^{n} p_{ijk}\log_2(p_{ijk})\]

归一化熵：\(\tilde{H}(\mathcal{T}_{i,j}) = \frac{H(\mathcal{T}_{i,j})}{\log_2(n)}\)，范围 \([0, 1]\)。

方差熵度量推理稳定性¶

\[\sigma_H^2(\mathcal{T}_{i,j}) = \frac{1}{n}\sum_{k=1}^{n}\left[H(t_{ijk}) - \bar{H}(\mathcal{T}_{i,j})\right]^2\]

方差熵捕捉了单个推理步内部 token 级别不确定性的波动程度。

四种推理状态与行为映射¶

熵变化	方差熵变化	含义	对应行为
\(\Delta H < 0\)	\(\Delta \sigma^2 < 0\)	推理确定性增强，过程稳定	Deepen
\(\Delta H > 0\)	\(\Delta \sigma^2 < 0\)	更多可能性但方向未发散	Deepen
\(\Delta H < 0\)	\(\Delta \sigma^2 > 0\)	不确定性降低但局部出现分歧	Expand
\(\Delta H > 0\)	\(\Delta \sigma^2 > 0\)	推理复杂且不稳定	Stop

三种探索行为¶

Deepen：在当前推理链上添加新节点 \(\mathcal{T}_{i,j+1}\)，继续深入
Expand：当前推理链分裂为两条，分别生成新节点 \(\mathcal{T}_{i,j+1}\) 和 \(\mathcal{T}'_{i,j+1}\)
Stop：终止当前链的扩展

\(\epsilon\)-greedy 行为选择¶

\[\pi_j(a|\mathbf{s}_j) = \begin{cases} 1 - \epsilon, & a = a_j^* \\ \frac{\epsilon}{|\mathcal{A}| - 1}, & a \neq a_j^* \end{cases}\]

以 \(1-\epsilon\) 概率执行映射函数推荐的最佳行为 \(a_j^*\)，以 \(\frac{\epsilon}{2}\) 概率随机探索其他行为。最终通过投票机制 \(L = V(\mathcal{S}, \mathcal{R})\) 确定推理结论。

软停止机制¶

在收到 Stop 信号后不立即终止，而是再推理 1-2 步后停止，避免在复杂任务中过早终止。

损失函数/训练策略¶

无需训练，纯推理时方法。基于 LLaMA-3.1-8B-Instruct，温度 0.7，最大 128 tokens。

实验关键数据¶

主实验¶

方法	GSM8K	SVAMP	StrategyQA	CSQA	平均
CoT	75.2 (8步)	83.4 (8步)	57.7 (5步)	75.6 (5步)	—
CoT-SC@maj8	78.1 (24步)	87.5 (24步)	68.3 (15步)	78.2 (15步)	—
CoT-SC@maj64	80.2 (24步)	89.6 (24步)	67.1 (15步)	78.7 (15步)	—
ToT	72.6 (121步)	83.3 (121步)	65.8 (121步)	73.5 (121步)	—
Complex CoT	81.4 (8步)	86.2 (8步)	65.7 (5步)	73.9 (5步)	—
DRR	83.0	90.2	67.7	82.1	—
Entro-duction	85.4 (9.5步)	92.0 (11.2步)	70.3 (9.6步)	79.6 (7.1步)	—

消融实验¶

配置	GSM8K	SVAMP	StrategyQA	CSQA
Base（无调整）	~72	~82	~55	~72
仅 Entropy	~77	~85	~60	~74
仅 Variance	~78	~86	~62	~75
Both（完整）	~85	~92	~70	~80

关键发现¶

准确率与步数的双赢：Entro-duction 以 9.5-11.2 步达到 85.4-92.0 的准确率，远少于 ToT 的 121 步且准确率更高
GSM8K 85.4% > DRR 83.0%：超越了需要额外训练的 DRR 方法
SVAMP 92.0%：在简单数学推理上效果尤为突出
熵和方差熵缺一不可：单独使用任一指标的效果都不如联合使用
Expand 行为至关重要：去掉 Expand 后在需要多路径探索的任务上性能显著下降
软停止 > 硬停止：Stop@2/3 的性能远优于立即停止（Hard Stop）
\(\epsilon = 0.25\) 最优：数学任务需要更多探索，常识任务需要更精确的决策

亮点与洞察¶

透明且可解释的推理调控：基于熵变化的行为选择直觉清晰，不需要黑箱式的自我反思
零训练开销：完全在推理时工作，无需任何额外训练或微调
双维度度量的互补性：熵捕捉"是否确定"，方差熵捕捉"是否稳定"，二者联合提供了推理状态的全面描述
自适应推理深度：不同任务自动获得不同的平均推理步数（数学 9.5-11.2 步，常识 7.1-9.6 步）
软停止机制的实用性：简单的延迟终止策略显著避免了过早停止的问题

局限性/可改进方向¶

仅在 LLaMA-3.1-8B 上实验，泛化到不同规模和架构的 LLM 有待验证
四种推理状态到三种行为的映射是手工设计的规则，未考虑更精细的状态空间
\(\epsilon\) 参数需要手动调优，不同任务可能需要不同的 \(\epsilon\) 值
仅在 4 个基准数据集上验证，不涵盖更复杂的现实世界推理场景
熵度量仅使用 token 级概率，未捕捉语义层面的不确定性
多链投票的最终决策策略较简单（多数投票），可能不是最优的聚合方式

评分¶

新颖性: ⭐⭐⭐⭐ — 熵引导推理深度的思路新颖，双维度度量设计有洞察
实验充分度: ⭐⭐⭐ — 4 个数据集，消融详细，但仅一个模型，任务类型有限
写作质量: ⭐⭐⭐⭐ — 数学形式化严谨，四种状态的分析清晰
综合价值: ⭐⭐⭐⭐ — 为多步推理提供了轻量、透明、免训练的深度控制方案，实用潜力大