Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks¶
日期: 2026-03-21
arXiv: 2603.20730
代码: 无
领域: LLM推理
关键词: reasoning topology, graph reasoning, chain-of-thought, tree-of-thought, self-generated heuristics
一句话总结¶
提出 Network-of-Thought (NoT),将 LLM 推理建模为带类型节点和边的有向图(而非链/树),配合启发式控制器策略和自生成权重机制,在 HotpotQA 多跳推理上达 91.0%(Judge),超越 ToT 的 88.0%,同时揭示评估方法(string-match vs LLM-as-Judge)可导致最高 18 个百分点的排名偏差。
研究背景与动机¶
-
领域现状: CoT 将推理组织为线性链,ToT 扩展到分支搜索树,这些方法在各自适用的任务上表现良好。
-
现有痛点: 复杂推理任务(如多跳 QA、逻辑推理)具有网络状结构——需要合并中间结果、修正假设、整合多来源证据——这些结构在链或树中无法自然表达。存在三个根本限制:(a) 推理复用问题:多条路径共享中间结论时树必须重复节点;(b) 推理循环问题:假设→验证→修正需要环结构,链和树天然无环;(c) 多源依赖问题:某些结论依赖多个独立输入。
-
核心 idea: 将推理拓扑泛化为 CoT ⊂ ToT ⊂ NoT(链 ⊂ 树 ⊂ 图),用有向图表示推理过程,引入启发式控制器选择下一个扩展节点,通过 LLM 自生成控制器权重替代手工调参。
方法详解¶
整体框架¶
NoT 框架包含三阶段六步骤:(1) 图初始化——单次 LLM 调用将问题转化为带类型的推理图(JSON 格式),后处理包括置信度截断 ≤0.5、确保目标节点存在、连通性强制;(2) 迭代推理——控制器为每个未解决节点评分,选择最高分节点通过 LLM 扩展,直到所有结论节点置信度 ≥0.8;(3) 答案提取——反向 BFS 回溯推理链,conclusion-first 策略提取最终答案。
关键设计¶
-
推理图表示:
- 节点类型:fact、subgoal、constraint、conclusion,每个节点有置信度 \(c_v \in [0,1]\) 和状态
- 边类型:depends_on、supports、derives、contradicts,带权重 \(w_e\)
- 自然支持共享节点(推理复用)、多输入节点(依赖推理)和类型化关系
-
启发式控制器策略:
- 评分函数:\(\text{score}(v) = w_u \cdot \text{uncertainty}(v) + w_d \cdot \text{dep\_degree}(v) + w_c \cdot \text{conflict}(v)\)
- 不确定性 = \(1 - c_v\),依赖度 = 未解决后继节点比例,冲突 = 是否有 contradicts 边
- 默认权重 \((0.4, 0.4, 0.2)\),不确定性和依赖度等权,冲突作为辅助信号
-
自生成启发式权重:
- 单次 LLM 调用,描述图结构后让 LLM 自动提出 \((w_u, w_d, w_c)\)
- LLM 提出 \((0.5, 0.3, 0.2)\)——更偏重不确定性
- 在 ProofWriter 上自生成权重(54.0%)优于手工设计(51.3%)和随机(49.7%)
收敛条件¶
所有结论节点置信度 ≥ 0.8 且至少 3 步扩展;或达到 20 步上限;或连续两步无显著置信度变化(停滞检测)。
实验关键数据¶
主实验(GPT-4o-mini)¶
| 数据集 | CoT (SM) | ToT (SM) | NoT (SM) | NoT (Judge) |
|---|---|---|---|---|
| GSM8K | 89.5% | 69.5% | 82.0% | 85.0% |
| Game of 24 | 58.0% | 11.0% | 75.0% | 86.0% |
| HotpotQA | 86.3% | 72.3% | 73.3% | 91.0% |
| ProofWriter | 43.3% | 51.7% | 49.0% | 50.3% |
消融实验(ProofWriter 权重消融)¶
| 配置 | SM (%) | 说明 |
|---|---|---|
| \(w_u\) only | 57.0% | 仅不确定性最优 |
| \(w_d\) only | 51.0% | 仅依赖度 |
| \(w_c\) only | 49.0% | 仅冲突 |
| \(w_u + w_d\) | 52.3% | 二元组合 |
| Full | 49.7% | 三元组合反而下降 |
关键发现¶
- CoT 在序列推理(GSM8K)仍最强,NoT 在多跳推理(HotpotQA)有优势
- 不确定性单维权重(57.0%)反超三维组合(49.7%),暗示启发信号间可能存在干扰
- 评估方法选择极大影响结论:NoT 在 HotpotQA 上 string-match vs Judge 差 17.7%,是所有方法中最大的
- 72B 开源模型(Qwen2.5-72B)在 HotpotQA 达到 91.7%(Judge),超越 GPT-4o-mini
亮点与洞察¶
- 推理拓扑分类学首次系统化——链/树/图各有计算-表达力折中,不同任务需要不同拓扑
- 自生成启发式是个极简但有效的 idea:仅一次 LLM 调用就生成控制权重,避免了逐任务调参
- 评估方法论的警示值得关注——string-match 对 NoT 这种输出更冗长的方法系统性低估
局限性 / 可改进方向¶
- 实验规模偏小(总共 900 实例),统计显著性有限
- 推理循环(loop)在实验中频率为零——LLM 不会自发生成环结构,这恰恰是图推理最独特的优势却没发挥
- 单模型单轮生成图,缺少迭代图修正机制
- Token 开销大:NoT 平均 12 次 API 调用,比 CoT 贵 15.8 倍,实用性受限
评分¶
- 新颖性: ⭐⭐⭐⭐ 推理拓扑分类和自生成启发式有新意,但图推理本身 GoT 已提出
- 实验充分度: ⭐⭐⭐ 四个 benchmark 覆盖面可以,但样本量太小
- 价值: ⭐⭐⭐⭐ 系统性分析推理拓扑的必要性条件有参考价值