Scalable and Accurate Graph Reasoning with LLM-Based Multi-Agents¶

会议: AAAI 2026 arXiv: 2410.05130 代码: 无领域: LLM NLP 关键词: 图推理, Multi-Agent, 分布式计算, LLM推理, 可扩展性

一句话总结¶

提出 GraphAgent-Reasoner（GAR），受分布式图计算理论启发，将图问题分解为以节点为中心的子任务分配给多个 Agent，通过邻居消息传递协作求解，将 LLM 可处理的图规模从 100 个节点扩展到 1000 个，在多项式时间图推理任务上显著超越现有最佳方法。

研究背景与动机¶

领域现状：用 LLM 做图推理是一个新兴方向，但现有方法只能处理小规模图（<20 节点），且在连通性、最短路等任务上的准确率仅 20-60%。
现有痛点：(a) 图结构用自然语言描述导致输入极长，超出 LLM 上下文能力；(b) 单个 LLM 无法准确记忆和理解复杂图结构（随节点增加，一跳邻居记忆准确率快速下降）；(c) 微调方法（如 GraphWiz）存在严重过拟合，无法泛化到新任务。
核心矛盾：图的边数量可随节点二次增长，但 LLM 处理长文本能力有限，且对图结构的理解需要精确推理（不容许语义偏差）。
切入角度：模拟分布式图计算——每个节点一个 Agent，只处理自己的局部信息和邻居消息。
核心 idea：Master LLM 将图问题解构为分布式算法（State/Message/Init/Send/Update/Terminate 6 个组件），每个节点 Agent 只需处理本地状态和邻居消息，通过多轮消息传递协作求解。

方法详解¶

整体框架¶

输入为图描述 \(\mathcal{G}\) + 任务描述 \(\mathcal{Q}\)，输出为图推理答案。Pipeline 分四步： 1. Graph Construction：Master 提取节点和边信息，为每个节点创建一个 Agent 2. Algorithm Establishing：Master 从分布式算法库中检索相关算法模板并调整生成 6 个组件 3. Distributed Execution：Agent 按算法执行多轮"接收消息→更新状态→发送消息"循环 4. Master Summarization：汇聚所有 Agent 最终状态，综合得出答案

关键设计¶

分布式算法范式：
为所有图推理任务定义统一的 6 个组件（State/Message/Init/Send/Update/Terminate）
包含一个分布式算法库（BFS、Dijkstra、PageRank 等的分布式实现），Master 根据问题检索最相关的算法模板并调整
设计动机：统一范式让 LLM 理解分布式计算的概念，算法库提供 in-context 示例
以节点为中心的 Agent 网络：
每个节点一个 Agent，只维护本地状态和邻居信息
核心优势：大幅减少每个 Agent 需处理的信息量（从全图 O(|E|) 降到局部 O(degree)）
可扩展性：只需增加 Agent 数量就能处理更大的图，从 100 扩展到 1000 个节点
透明推理路径：
Agent 间的消息传递构成了可追溯的推理轨迹
与单 LLM 的"黑盒猜测"不同，可以验证模型是否真正通过正确推理得到答案

实验关键数据¶

主实验（GraphInstruct 基准，多项式时间任务，最大 100 个节点）¶

方法	Connectivity	Shortest Path	Max Flow	Bipartite	平均
GPT-4o	~60%	~30%	~20%	~50%	~40%
GraphWiz (fine-tuned)	~70%	~40%	~30%	~60%	~50%
GAR (GPT-4o)	~95%	~85%	~75%	~90%	~86%

可扩展性实验¶

图规模	单 LLM	GAR
50 节点	~50%	~90%
200 节点	~20%	~85%
500 节点	无法处理	~80%
1000 节点	无法处理	~75%

关键发现¶

显著超越现有方法：在多项式时间任务上平均准确率约 86%，远超 GPT-4o 直接推理（~40%）和微调模型 GraphWiz（~50%）
可扩展到 1000 个节点：其他方法在 200+ 节点时已无法工作或准确率崩溃，GAR 仍保持 75-85% 准确率
GraphWiz 存在严重过拟合：在重新表述的真实世界图问题上完全失败，证明微调学到的是表面模式而非图算法
真实世界应用验证：在网页重要性分析（PageRank 变体）上展示了实际应用潜力

亮点与洞察¶

将分布式图计算的思想迁移到 LLM Agent 是非常优雅的设计——"既然单个 LLM 处理不了大图，那就用多个 LLM 分而治之"。这不仅解决了规模问题，还让推理过程透明可追溯
6 个组件的统一分布式范式是将图算法知识编码为 LLM 可理解格式的巧妙方式——可以推广到其他需要分布式处理的 Agent 场景

局限性 / 可改进方向¶

Agent 数量等于节点数量，对 1000+ 节点的图需要 1000+ 个 Agent 并行运行，计算成本巨大
仅在多项式时间任务上有效，对 NP-hard 问题（如图着色、TSP）的效果未知
每个 Agent 都是一个完整的 LLM 调用，多轮消息传递导致 token 消耗巨大
Master 需要正确识别问题类型并检索合适的算法模板，对新型图问题可能失败
Agent 之间的消息传递可能引入幻觉传播——单个 Agent 的错误可能通过网络传递到其他节点
算法库的覆盖度有限，对于库中未有的图算法（如图神经网络类任务）可能不适用
多轮通信的同步开销未量化——每轮都需要所有 Agent 完成才能进入下一轮，吮尾 Agent 会拖慢整体进度

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将分布式图计算理论与 Multi-Agent LLM 结合是非常原创的思路
实验充分度: ⭐⭐⭐⭐ 多类任务、多规模测试、真实世界应用验证
写作质量: ⭐⭐⭐⭐ 动机分析很充分，单 LLM 局限性的实验证据很有说服力
价值: ⭐⭐⭐⭐⭐ 将 LLM 图推理的规模从 100 扩展到 1000，是重要的进展

补充说明¶

该工作的方法论和实验设计对相关领域有参考价值
后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
与近期相关工作的结合（如与 RL/MCTS/多模态方法的交叉）有潜在研究价值
建议结合实际应用需求评估该方法的部署可行性和计算效率
数据集和评估指标的选择可能影响结论的普适性，需在更多 benchmark 上交叉验证

补充说明¶

该工作的方法论和实验设计对相关领域有参考价值
后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
与近期相关工作的结合（如与 RL/MCTS/多模态方法的交叉）有潜在研究价值

Scalable and Accurate Graph Reasoning with LLM-Based Multi-Agents¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验（GraphInstruct 基准，多项式时间任务，最大 100 个节点）¶

可扩展性实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

补充说明¶

补充说明¶