跳转至

Semantic Exploration with Adaptive Gating for Efficient Problem Solving with Language Models

会议: ACL 2025 (Long Paper)
arXiv: 2501.05752
代码: https://github.com/ml-postech/SEAG-semantic-exploration-with-adaptive-gating
领域: LLM推理 / 树搜索优化
关键词: tree search, MCTS, semantic clustering, adaptive gating, reasoning efficiency

一句话总结

针对 LLM 树搜索推理中"简单题也做复杂搜索"和"语义重复路径反复扩展"两大浪费问题,提出 SEAG 框架:先用 entropy 门控决定是否启动树搜索,再用语义聚类合并等价推理步骤,最终在准确率平均提升 4.3% 的同时仅需 RAP 31% 的推理开销。

背景与动机

LLM 在数学推理(GSM8K)和常识推理(ARC)等多步推理任务上取得了显著进展。Chain-of-Thought (CoT) 及其 Self-Consistency 变体通过采样多条推理路径再投票来提升准确率,但只能做"线性"搜索。Tree-of-Thought (ToT) 和 RAP 等方法引入了 BFS/DFS/MCTS 等树搜索算法对推理空间做结构化探索,效果更好但计算代价也显著增大。

现有树搜索方法有两个核心痛点: 1. 不区分难易:对简单问题(模型本身就能高置信度回答的)也执行完整树搜索,造成大量不必要的计算浪费; 2. 语义冗余扩展:在扩展子节点时,LLM 经常生成表达不同但语义相同的推理步骤(例如"Julie 昨天读了多少页?"和"Julie 昨天完成阅读的页数是多少?"),导致搜索树中存在大量语义重复的子树,浪费搜索预算。

核心问题

如何让树搜索推理方法"智能地"分配计算资源——简单问题少搜甚至不搜,复杂问题才做深度探索;同时避免在语义等价的推理路径上做重复搜索?核心挑战在于:(1) 何时启动/终止树搜索需要可靠的置信度估计;(2) 判断自然语言表达的语义等价性本身是个难题,尤其在开放域推理场景下。

方法详解

整体框架

SEAG 由三个阶段组成,形成一个完整的推理 pipeline:

输入Adaptive Gating (AG) → 若置信度高则直接输出(走 CoT-SC 路线),若置信度低则进入 → Semantic Exploration (SE)(基于语义聚类的 MCTS 树搜索)→ 搜索过程中随时检查 Early Stopping 条件 → 输出最终答案

关键设计

  1. Adaptive Gating (AG) — 自适应门控:先用 CoT 采样 \(k=10\) 条推理路径,统计各答案的出现频率 \(q(y)\),计算答案分布的 entropy \(H(y) = -\sum_{y \in \mathcal{Y}} q(y) \log q(y)\)。若 \(H(y) \leq \tau\)(即模型对答案很有把握),直接用多数投票输出答案,跳过树搜索。只有高 entropy(模型不确定)的问题才进入 SE 阶段。实验显示约 67% 的问题在 AG 阶段就被过滤,大幅降低平均计算量。这个设计的直觉来自分析数据:低 entropy 问题上 CoT-SC 本身就能达到很高的准确率,树搜索几乎没有额外收益。

  2. Semantic Exploration (SE) — 语义聚类 + Semantic PUCT:在 MCTS 树的每个节点扩展时,LLM 生成 \(d=4\) 个候选 action(子问题)。然后用 DeBERTa-large 模型做双向文本蕴含检测,判断任意两个 action 是否语义等价,将等价的 action 归入同一个语义等价类 \(\mathcal{C} = \{C_1, C_2, \ldots, C_{d'}\}\)\(d' \leq d\))。这样搜索树只需为每个语义等价类维护一个子树,而非为每个表面不同的 action 都展开子树。

在 action 选择上,提出 Semantic PUCT 算法:将标准 PUCT 从 action 层面提升到语义簇层面,簇的先验概率为簇内所有 action 概率之和 \(\pi(C_i|s) = \sum_{a \in C_i} p_\theta(a|s,m)\)。选中某个簇后,取簇内概率最高的 action 来构建 prompt。这种设计让更多 LLM 生成样本支持的语义方向获得更高的探索优先级,体现了 self-consistency 原则。

  1. Early Stopping — 加权聚合奖励:在 MCTS 迭代过程中,每当到达终端节点,计算路径上的加权奖励 \(R(n_j) = \sum_{n \in P(n_j)} |C(n)| \cdot r(n)\),其中 \(|C(n)|\) 是节点所属语义簇的大小,用于强调被更多样本支持的推理路径。将产出相同答案的终端节点奖励聚合 \(R_{\text{agg}}(y) = \sum_{n_j: Y(n_j)=y} R(n_j)\),当最高聚合奖励超过阈值 \(\alpha\) 时提前终止。这样无需跑满所有 MCTS 迭代即可在高置信情况下输出答案。

实验关键数据

数据集 方法 Accuracy ↑ # Inferences ↓ 备注 (Llama3-8B-Instruct)
GSM8K CoT 0.762 1 单路径 baseline
GSM8K CoT-SC 0.845 10 多路径投票
GSM8K ToT 0.785 104.80 BFS 树搜索
GSM8K RAP 0.825 128.40 MCTS 树搜索
GSM8K SE 0.850 82.63 语义探索(无门控)
GSM8K SEAG 0.860 41.69 完整框架
ARC CoT 0.818 1 -
ARC CoT-SC 0.823 10 -
ARC RAP 0.812 196.96 -
ARC SEAG 0.845 - 全面最优
  • 在三个 LLM(Llama3-8B, Llama2-13B, Mistral-7B)和两个数据集上,SEAG 均取得最高准确率
  • 相比 RAP,SEAG 平均准确率提升 4.3%,仅需 RAP 31% 的推理次数
  • 端到端延迟:SEAG 38.89s vs RAP 151.19s vs ToT 120.63s(ARC, Llama3-8B, A5000 GPU)

消融实验要点

  • Semantic PUCT vs UCT vs PUCT(Table 4):Semantic PUCT 在 GSM8K 上 0.850 vs UCT 0.828 vs PUCT 0.840,推理次数相当,说明在语义簇层面做探索-利用权衡比 action 层面更有效
  • 加权聚合 vs 等权聚合(Table 5):按 \(|C|\) 加权的聚合在准确率和效率上均优于等权聚合(GSM8K: 0.850/82.63 vs 0.845/95.89)
  • 语义聚类缩减率(Table 2):随搜索深度增加,语义冗余越来越严重——depth 1 减少 25-42%,depth 4 减少 55-61%,说明语义聚类在深层搜索中价值更大
  • AG 门控分析(Figure 4):低 entropy 区间 CoT-SC 准确率已很高,高 entropy 区间树搜索收益显著,验证了自适应门控的合理性

亮点

  • "先筛后搜"的二阶段策略很优雅:用轻量的 entropy 评估快速过滤简单问题,只对难题动用重型搜索,计算资源分配高效合理。这个思路可推广到任何"简单/困难实例混合"的推理场景
  • 语义聚类用 DeBERTa 做蕴含检测:相比嵌入相似度等粗粒度方法,双向蕴含检测更精确地捕捉语义等价关系。且 DeBERTa 相对 LLM 极其轻量,额外开销可忽略(仅 2.54s)
  • Semantic PUCT 自然融合了 self-consistency 思想:更多 LLM 样本支持的语义方向获得更高探索优先级,将采样频率的信息论含义(self-consistency)和树搜索的探索-利用权衡统一起来

局限性

  • 仅依赖 LLM 内部知识:不使用外部工具(计算器、检索器等),在需要精确计算或事实查询的场景可能受限
  • 评测局限于离散答案任务:GSM8K(数值)和 ARC(选择题),未验证在开放式文本生成任务上的效果
  • 语义聚类依赖 NLI 模型:蕴含检测的质量直接影响聚类准确性,对于高度专业化或领域特定的推理步骤,通用 NLI 模型可能判断不准
  • 超参数 \(\tau\)\(\alpha\) 需要数据集相关调优:门控阈值和早停阈值的通用性有待验证

与相关工作的对比

  • vs RAP (Hao et al., 2023):RAP 是最直接的 baseline,同样用 MCTS + MDP 建模。SEAG 在三个维度上改进:(1) 加入 AG 避免简单问题的搜索浪费;(2) 用语义聚类减少冗余扩展;(3) 加权奖励聚合 + early stopping。最终 SEAG 比 RAP 高 4.3% 准确率,仅用 31% 推理次数
  • vs ToT (Yao et al., 2023):ToT 用 BFS/DFS,搜索效率比 MCTS 低,且同样没有语义去重和自适应门控。SEAG 在准确率和效率上全面优于 ToT
  • vs CoT-SC (Wang et al., 2023):CoT-SC 简单高效但上限有限(只做线性搜索+投票)。SEAG 通过 AG 实际上只在难题上比 CoT-SC 多做搜索,在简单题上退化为 CoT-SC,兼顾了两者优势

启发与关联

  • Adaptive CoT Compression for Reasoning-based IE 的核心思想高度一致——根据输入难度自适应调节推理深度/复杂度。SEAG 的 entropy 门控机制可以直接启发 NER 任务中的自适应推理链长度控制
  • "语义聚类去重"的思路可推广到任何需要多路径采样的场景(如 Best-of-N sampling, reward model 训练数据去重等)
  • 加权聚合奖励的设计(大簇 = 更可信)本质是一种 soft self-consistency,比硬投票更 nuanced

评分

  • 新颖性: ⭐⭐⭐⭐ 各个组件(entropy 门控、语义聚类、PUCT 变体)单独看不算全新,但组合得很完整且相互协同
  • 实验充分度: ⭐⭐⭐⭐ 三个模型两个数据集,消融充分,延迟分析到位;但数据集类型较单一(均为离散答案)
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导完整,图示说明力强
  • 价值: ⭐⭐⭐⭐ 为 LLM 树搜索推理提供了一套实用的效率优化方案,思路可迁移性强