跳转至

Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks

日期: 2026-03-21
arXiv: 2603.20730
代码: 无
领域: LLM推理
关键词: reasoning topology, graph reasoning, chain-of-thought, tree-of-thought, self-generated heuristics

一句话总结

提出 Network-of-Thought (NoT),将 LLM 推理建模为带类型节点和边的有向图(而非链/树),配合启发式控制器策略和自生成权重机制,在 HotpotQA 多跳推理上达 91.0%(Judge),超越 ToT 的 88.0%,同时揭示评估方法(string-match vs LLM-as-Judge)可导致最高 18 个百分点的排名偏差。

研究背景与动机

  1. 领域现状: CoT 将推理组织为线性链,ToT 扩展到分支搜索树,这些方法在各自适用的任务上表现良好。

  2. 现有痛点: 复杂推理任务(如多跳 QA、逻辑推理)具有网络状结构——需要合并中间结果、修正假设、整合多来源证据——这些结构在链或树中无法自然表达。存在三个根本限制:(a) 推理复用问题:多条路径共享中间结论时树必须重复节点;(b) 推理循环问题:假设→验证→修正需要环结构,链和树天然无环;(c) 多源依赖问题:某些结论依赖多个独立输入。

  3. 核心 idea: 将推理拓扑泛化为 CoT ⊂ ToT ⊂ NoT(链 ⊂ 树 ⊂ 图),用有向图表示推理过程,引入启发式控制器选择下一个扩展节点,通过 LLM 自生成控制器权重替代手工调参。

方法详解

整体框架

NoT 框架包含三阶段六步骤:(1) 图初始化——单次 LLM 调用将问题转化为带类型的推理图(JSON 格式),后处理包括置信度截断 ≤0.5、确保目标节点存在、连通性强制;(2) 迭代推理——控制器为每个未解决节点评分,选择最高分节点通过 LLM 扩展,直到所有结论节点置信度 ≥0.8;(3) 答案提取——反向 BFS 回溯推理链,conclusion-first 策略提取最终答案。

关键设计

  1. 推理图表示:

    • 节点类型:fact、subgoal、constraint、conclusion,每个节点有置信度 \(c_v \in [0,1]\) 和状态
    • 边类型:depends_on、supports、derives、contradicts,带权重 \(w_e\)
    • 自然支持共享节点(推理复用)、多输入节点(依赖推理)和类型化关系
  2. 启发式控制器策略:

    • 评分函数:\(\text{score}(v) = w_u \cdot \text{uncertainty}(v) + w_d \cdot \text{dep\_degree}(v) + w_c \cdot \text{conflict}(v)\)
    • 不确定性 = \(1 - c_v\),依赖度 = 未解决后继节点比例,冲突 = 是否有 contradicts 边
    • 默认权重 \((0.4, 0.4, 0.2)\),不确定性和依赖度等权,冲突作为辅助信号
  3. 自生成启发式权重:

    • 单次 LLM 调用,描述图结构后让 LLM 自动提出 \((w_u, w_d, w_c)\)
    • LLM 提出 \((0.5, 0.3, 0.2)\)——更偏重不确定性
    • 在 ProofWriter 上自生成权重(54.0%)优于手工设计(51.3%)和随机(49.7%)

收敛条件

所有结论节点置信度 ≥ 0.8 且至少 3 步扩展;或达到 20 步上限;或连续两步无显著置信度变化(停滞检测)。

实验关键数据

主实验(GPT-4o-mini)

数据集 CoT (SM) ToT (SM) NoT (SM) NoT (Judge)
GSM8K 89.5% 69.5% 82.0% 85.0%
Game of 24 58.0% 11.0% 75.0% 86.0%
HotpotQA 86.3% 72.3% 73.3% 91.0%
ProofWriter 43.3% 51.7% 49.0% 50.3%

消融实验(ProofWriter 权重消融)

配置 SM (%) 说明
\(w_u\) only 57.0% 仅不确定性最优
\(w_d\) only 51.0% 仅依赖度
\(w_c\) only 49.0% 仅冲突
\(w_u + w_d\) 52.3% 二元组合
Full 49.7% 三元组合反而下降

关键发现

  • CoT 在序列推理(GSM8K)仍最强,NoT 在多跳推理(HotpotQA)有优势
  • 不确定性单维权重(57.0%)反超三维组合(49.7%),暗示启发信号间可能存在干扰
  • 评估方法选择极大影响结论:NoT 在 HotpotQA 上 string-match vs Judge 差 17.7%,是所有方法中最大的
  • 72B 开源模型(Qwen2.5-72B)在 HotpotQA 达到 91.7%(Judge),超越 GPT-4o-mini

亮点与洞察

  • 推理拓扑分类学首次系统化——链/树/图各有计算-表达力折中,不同任务需要不同拓扑
  • 自生成启发式是个极简但有效的 idea:仅一次 LLM 调用就生成控制权重,避免了逐任务调参
  • 评估方法论的警示值得关注——string-match 对 NoT 这种输出更冗长的方法系统性低估

局限性 / 可改进方向

  • 实验规模偏小(总共 900 实例),统计显著性有限
  • 推理循环(loop)在实验中频率为零——LLM 不会自发生成环结构,这恰恰是图推理最独特的优势却没发挥
  • 单模型单轮生成图,缺少迭代图修正机制
  • Token 开销大:NoT 平均 12 次 API 调用,比 CoT 贵 15.8 倍,实用性受限

评分

  • 新颖性: ⭐⭐⭐⭐ 推理拓扑分类和自生成启发式有新意,但图推理本身 GoT 已提出
  • 实验充分度: ⭐⭐⭐ 四个 benchmark 覆盖面可以,但样本量太小
  • 价值: ⭐⭐⭐⭐ 系统性分析推理拓扑的必要性条件有参考价值