S-DAG: A Subject-Based Directed Acyclic Graph for Multi-Agent Heterogeneous Reasoning¶
会议: AAAI 2026
arXiv: 2511.06727
代码: https://github.com/WanyuGroup/AAAI2026_S-DAG
领域: LLM Agent / 多Agent推理 / 模型路由
关键词: 学科级分析, 有向无环图, GNN推理, 专家模型组合, 异质推理
一句话总结¶
提出 S-DAG,通过 GNN 从问题中识别相关学科及其依赖关系构建有向无环图,将学科节点匹配到最擅长的专家 LLM(14 个 7-13B 领域模型),按 DAG 拓扑顺序协作推理(支撑学科→主导学科),用小模型池超越 GPT-4o-mini(59.73 vs 58.52)且接近 72B 模型。
研究背景与动机¶
- 领域现状:现有 MoE/路由方法(如 MoE Router、GraphRouter)在任务级别选择模型——对整个问题选一个模型或 Top-k 模型。但许多问题跨多个学科(如一道题同时涉及物理+数学+化学),任务级路由粒度太粗。
- 现有痛点:Multi-Agent Debate 让多个模型辩论但不区分各自专长;Symbolic-MoE 按技能选 Top-k 模型但忽略学科间的依赖关系(如解物理题需要先用数学推导)。
- 核心矛盾:需要同时解决三个问题:(a) 识别问题涉及哪些学科;(b) 确定学科间的信息流向(哪个支持哪个);(c) 将每个学科匹配到最擅长的模型。
- 切入角度:将多学科问题建模为 DAG——学科是节点,依赖关系是有向边(支撑→主导),每个节点分配最佳专家模型。
- 核心 idea 一句话:GNN 做学科级 DAG 构建 + 模型能力画像匹配 + DAG 拓扑顺序多 Agent 协作推理。
方法详解¶
整体框架¶
两阶段:(1) GNN 构建 S-DAG(节点=学科,边=依赖);(2) 按 DAG 拓扑顺序分配专家模型并协作推理。
关键设计¶
- S-DAG Construction(GNN 构建):
- 问题用 BERT 编码 → 与 15 个候选学科 embedding 融合 → GNN 有向消息传递更新节点特征 → 节点分类器判断学科相关性 + 边分类器判断依赖方向
-
Ground-truth S-DAG:用 LLM(qwen-turbo)对 15 个学科权重打分(3 轮取均值),低权重→高权重为支撑→主导方向
-
LLM Profiling(模型能力画像):
- 14 个领域专家模型(DeepseekMath-7B, BioMistral-7B, Qwen2.5-Coder-7B 等)
- 200 个随机测试题建立 per-model per-subject 能力矩阵 \(C_{ij}\)
-
每个学科节点匹配得分最高的模型
-
DAG-guided Collaboration(协作推理):
- Subject Expert Agent(起始节点):从自身领域视角处理原始问题
- Supporting Agent(中间节点):整合上游 Agent 输出 + 自身专长
- Dominant Agent(终端节点):综合所有输入给出最终答案
实验关键数据¶
主实验¶
| 方法 | MMLU-Pro | GPQA | MedMCQA | 平均 |
|---|---|---|---|---|
| GPT-4o-mini (CoT) | 49.42 | 47.31 | 78.82 | 58.52 |
| Symbolic-MoE | 48.13 | 45.92 | 78.55 | 57.53 |
| MAD (Qwen2.5-7b) | 45.82 | 46.81 | 76.55 | 56.39 |
| S-DAG (7-13B 池) | 50.98 | 49.82 | 78.38 | 59.73 |
| Qwen2.5-72B (CoT) | 50.81 | 48.98 | 80.44 | 60.08 |
消融实验¶
| 配置 | 平均准确率 | 推理时间 | LLM 调用次数 |
|---|---|---|---|
| 无 GNN + 随机模型 | 41.12% | 14.21s | 5.1 |
| 有 GNN + 随机模型 | 42.19% | 14.82s | 4.1 |
| 无 GNN + 能力匹配 | 53.51% | 14.53s | 5.1 |
| 全连接图 | 57.29% | 38.45s | 8.2 |
| S-DAG (完整) | 59.73% | 15.02s | 4.1 |
关键发现¶
- 小模型池超越 GPT-4o-mini:S-DAG (7-13B) 59.73% vs GPT-4o-mini 58.52%,证明协作小模型可以替代大模型
- 模型能力匹配是最关键因素:随机匹配仅 42.19%,能力匹配 53.51%(+11.3pp),加 GNN DAG 再提到 59.73%
- DAG 比全连接图更好更快:59.73% vs 57.29%(更准),15s vs 38.5s(2.5x 快),4.1 vs 8.2 次调用(半减)——冗余通信反而有害
- GNN 的价值在于过滤噪声:LLM 生成的 S-DAG 标签有噪声/不一致,GNN 学习后能生成更鲁棒的图结构
亮点与洞察¶
- 学科级分析粒度比任务级更精细——同一道题的不同学科可以由不同专家模型处理,实现真正的"术业有专攻"
- DAG 拓扑约束不仅提高了准确率还减少了计算——支撑学科先处理,主导学科综合,避免了全连接的冗余通信
- 用小模型池替代大模型的范式对实际部署有重要意义——14 个 7-13B 模型的总参数量远小于一个 72B 模型
局限性 / 可改进方向¶
- 仅在 MCQ benchmark 上评估,缺少开放式生成任务
- 15 个候选学科可能不够细粒度(如"医学"可以分为更多子学科)
- 模型能力画像仅用 200 个样本估算,样本量有限
- 需要维护 14 个模型的部署,增加了工程复杂度
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 学科级DAG构建+能力匹配+拓扑协作是多Agent推理的新范式
- 实验充分度: ⭐⭐⭐⭐ 3个benchmark+9个基线+完整消融,但只有MCQ格式
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,消融分析透彻
- 价值: ⭐⭐⭐⭐⭐ 小模型池超越大模型的结果有实际部署价值,DAG比全连接更好的发现有理论意义