Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks¶

日期: 2026-03-21
arXiv: 2603.20730
代码: 无
领域: LLM推理
关键词: reasoning topology, graph reasoning, chain-of-thought, tree-of-thought, self-generated heuristics

一句话总结¶

提出 Network-of-Thought (NoT)，将 LLM 推理建模为带类型节点和边的有向图（而非链/树），配合启发式控制器策略和自生成权重机制，在 HotpotQA 多跳推理上达 91.0%（Judge），超越 ToT 的 88.0%，同时揭示评估方法（string-match vs LLM-as-Judge）可导致最高 18 个百分点的排名偏差。

研究背景与动机¶

领域现状: CoT 将推理组织为线性链，ToT 扩展到分支搜索树，这些方法在各自适用的任务上表现良好。
现有痛点: 复杂推理任务（如多跳 QA、逻辑推理）具有网络状结构——需要合并中间结果、修正假设、整合多来源证据——这些结构在链或树中无法自然表达。存在三个根本限制：(a) 推理复用问题：多条路径共享中间结论时树必须重复节点；(b) 推理循环问题：假设→验证→修正需要环结构，链和树天然无环；(c) 多源依赖问题：某些结论依赖多个独立输入。
核心 idea: 将推理拓扑泛化为 CoT ⊂ ToT ⊂ NoT（链 ⊂ 树 ⊂ 图），用有向图表示推理过程，引入启发式控制器选择下一个扩展节点，通过 LLM 自生成控制器权重替代手工调参。

方法详解¶

整体框架¶

NoT 框架包含三阶段六步骤：(1) 图初始化——单次 LLM 调用将问题转化为带类型的推理图（JSON 格式），后处理包括置信度截断 ≤0.5、确保目标节点存在、连通性强制；(2) 迭代推理——控制器为每个未解决节点评分，选择最高分节点通过 LLM 扩展，直到所有结论节点置信度 ≥0.8；(3) 答案提取——反向 BFS 回溯推理链，conclusion-first 策略提取最终答案。

关键设计¶

推理图表示:
- 节点类型：fact、subgoal、constraint、conclusion，每个节点有置信度 \(c_v \in [0,1]\) 和状态
- 边类型：depends_on、supports、derives、contradicts，带权重 \(w_e\)
- 自然支持共享节点（推理复用）、多输入节点（依赖推理）和类型化关系
启发式控制器策略:
- 评分函数：\(\text{score}(v) = w_u \cdot \text{uncertainty}(v) + w_d \cdot \text{dep\_degree}(v) + w_c \cdot \text{conflict}(v)\)
- 不确定性 = \(1 - c_v\)，依赖度 = 未解决后继节点比例，冲突 = 是否有 contradicts 边
- 默认权重 \((0.4, 0.4, 0.2)\)，不确定性和依赖度等权，冲突作为辅助信号
自生成启发式权重:
- 单次 LLM 调用，描述图结构后让 LLM 自动提出 \((w_u, w_d, w_c)\)
- LLM 提出 \((0.5, 0.3, 0.2)\)——更偏重不确定性
- 在 ProofWriter 上自生成权重（54.0%）优于手工设计（51.3%）和随机（49.7%）

收敛条件¶

所有结论节点置信度 ≥ 0.8 且至少 3 步扩展；或达到 20 步上限；或连续两步无显著置信度变化（停滞检测）。

实验关键数据¶

主实验（GPT-4o-mini）¶

数据集	CoT (SM)	ToT (SM)	NoT (SM)	NoT (Judge)
GSM8K	89.5%	69.5%	82.0%	85.0%
Game of 24	58.0%	11.0%	75.0%	86.0%
HotpotQA	86.3%	72.3%	73.3%	91.0%
ProofWriter	43.3%	51.7%	49.0%	50.3%

消融实验（ProofWriter 权重消融）¶

配置	SM (%)	说明
\(w_u\) only	57.0%	仅不确定性最优
\(w_d\) only	51.0%	仅依赖度
\(w_c\) only	49.0%	仅冲突
\(w_u + w_d\)	52.3%	二元组合
Full	49.7%	三元组合反而下降

关键发现¶

CoT 在序列推理（GSM8K）仍最强，NoT 在多跳推理（HotpotQA）有优势
不确定性单维权重（57.0%）反超三维组合（49.7%），暗示启发信号间可能存在干扰
评估方法选择极大影响结论：NoT 在 HotpotQA 上 string-match vs Judge 差 17.7%，是所有方法中最大的
72B 开源模型（Qwen2.5-72B）在 HotpotQA 达到 91.7%（Judge），超越 GPT-4o-mini

亮点与洞察¶

推理拓扑分类学首次系统化——链/树/图各有计算-表达力折中，不同任务需要不同拓扑
自生成启发式是个极简但有效的 idea：仅一次 LLM 调用就生成控制权重，避免了逐任务调参
评估方法论的警示值得关注——string-match 对 NoT 这种输出更冗长的方法系统性低估

局限性 / 可改进方向¶

实验规模偏小（总共 900 实例），统计显著性有限
推理循环（loop）在实验中频率为零——LLM 不会自发生成环结构，这恰恰是图推理最独特的优势却没发挥
单模型单轮生成图，缺少迭代图修正机制
Token 开销大：NoT 平均 12 次 API 调用，比 CoT 贵 15.8 倍，实用性受限

评分¶

新颖性: ⭐⭐⭐⭐ 推理拓扑分类和自生成启发式有新意，但图推理本身 GoT 已提出
实验充分度: ⭐⭐⭐ 四个 benchmark 覆盖面可以，但样本量太小
价值: ⭐⭐⭐⭐ 系统性分析推理拓扑的必要性条件有参考价值