跳转至

S-DAG: A Subject-Based Directed Acyclic Graph for Multi-Agent Heterogeneous Reasoning

会议: AAAI 2026
arXiv: 2511.06727
代码: https://github.com/WanyuGroup/AAAI2026_S-DAG
领域: LLM Agent / 多Agent推理 / 模型路由
关键词: 学科级分析, 有向无环图, GNN推理, 专家模型组合, 异质推理

一句话总结

提出 S-DAG,通过 GNN 从问题中识别相关学科及其依赖关系构建有向无环图,将学科节点匹配到最擅长的专家 LLM(14 个 7-13B 领域模型),按 DAG 拓扑顺序协作推理(支撑学科→主导学科),用小模型池超越 GPT-4o-mini(59.73 vs 58.52)且接近 72B 模型。

研究背景与动机

  1. 领域现状:现有 MoE/路由方法(如 MoE Router、GraphRouter)在任务级别选择模型——对整个问题选一个模型或 Top-k 模型。但许多问题跨多个学科(如一道题同时涉及物理+数学+化学),任务级路由粒度太粗。
  2. 现有痛点:Multi-Agent Debate 让多个模型辩论但不区分各自专长;Symbolic-MoE 按技能选 Top-k 模型但忽略学科间的依赖关系(如解物理题需要先用数学推导)。
  3. 核心矛盾:需要同时解决三个问题:(a) 识别问题涉及哪些学科;(b) 确定学科间的信息流向(哪个支持哪个);(c) 将每个学科匹配到最擅长的模型。
  4. 切入角度:将多学科问题建模为 DAG——学科是节点,依赖关系是有向边(支撑→主导),每个节点分配最佳专家模型。
  5. 核心 idea 一句话:GNN 做学科级 DAG 构建 + 模型能力画像匹配 + DAG 拓扑顺序多 Agent 协作推理。

方法详解

整体框架

两阶段:(1) GNN 构建 S-DAG(节点=学科,边=依赖);(2) 按 DAG 拓扑顺序分配专家模型并协作推理。

关键设计

  1. S-DAG Construction(GNN 构建):
  2. 问题用 BERT 编码 → 与 15 个候选学科 embedding 融合 → GNN 有向消息传递更新节点特征 → 节点分类器判断学科相关性 + 边分类器判断依赖方向
  3. Ground-truth S-DAG:用 LLM(qwen-turbo)对 15 个学科权重打分(3 轮取均值),低权重→高权重为支撑→主导方向

  4. LLM Profiling(模型能力画像):

  5. 14 个领域专家模型(DeepseekMath-7B, BioMistral-7B, Qwen2.5-Coder-7B 等)
  6. 200 个随机测试题建立 per-model per-subject 能力矩阵 \(C_{ij}\)
  7. 每个学科节点匹配得分最高的模型

  8. DAG-guided Collaboration(协作推理):

  9. Subject Expert Agent(起始节点):从自身领域视角处理原始问题
  10. Supporting Agent(中间节点):整合上游 Agent 输出 + 自身专长
  11. Dominant Agent(终端节点):综合所有输入给出最终答案

实验关键数据

主实验

方法 MMLU-Pro GPQA MedMCQA 平均
GPT-4o-mini (CoT) 49.42 47.31 78.82 58.52
Symbolic-MoE 48.13 45.92 78.55 57.53
MAD (Qwen2.5-7b) 45.82 46.81 76.55 56.39
S-DAG (7-13B 池) 50.98 49.82 78.38 59.73
Qwen2.5-72B (CoT) 50.81 48.98 80.44 60.08

消融实验

配置 平均准确率 推理时间 LLM 调用次数
无 GNN + 随机模型 41.12% 14.21s 5.1
有 GNN + 随机模型 42.19% 14.82s 4.1
无 GNN + 能力匹配 53.51% 14.53s 5.1
全连接图 57.29% 38.45s 8.2
S-DAG (完整) 59.73% 15.02s 4.1

关键发现

  • 小模型池超越 GPT-4o-mini:S-DAG (7-13B) 59.73% vs GPT-4o-mini 58.52%,证明协作小模型可以替代大模型
  • 模型能力匹配是最关键因素:随机匹配仅 42.19%,能力匹配 53.51%(+11.3pp),加 GNN DAG 再提到 59.73%
  • DAG 比全连接图更好更快:59.73% vs 57.29%(更准),15s vs 38.5s(2.5x 快),4.1 vs 8.2 次调用(半减)——冗余通信反而有害
  • GNN 的价值在于过滤噪声:LLM 生成的 S-DAG 标签有噪声/不一致,GNN 学习后能生成更鲁棒的图结构

亮点与洞察

  • 学科级分析粒度比任务级更精细——同一道题的不同学科可以由不同专家模型处理,实现真正的"术业有专攻"
  • DAG 拓扑约束不仅提高了准确率还减少了计算——支撑学科先处理,主导学科综合,避免了全连接的冗余通信
  • 用小模型池替代大模型的范式对实际部署有重要意义——14 个 7-13B 模型的总参数量远小于一个 72B 模型

局限性 / 可改进方向

  • 仅在 MCQ benchmark 上评估,缺少开放式生成任务
  • 15 个候选学科可能不够细粒度(如"医学"可以分为更多子学科)
  • 模型能力画像仅用 200 个样本估算,样本量有限
  • 需要维护 14 个模型的部署,增加了工程复杂度

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 学科级DAG构建+能力匹配+拓扑协作是多Agent推理的新范式
  • 实验充分度: ⭐⭐⭐⭐ 3个benchmark+9个基线+完整消融,但只有MCQ格式
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,消融分析透彻
  • 价值: ⭐⭐⭐⭐⭐ 小模型池超越大模型的结果有实际部署价值,DAG比全连接更好的发现有理论意义