S-DAG: A Subject-Based Directed Acyclic Graph for Multi-Agent Heterogeneous Reasoning¶

会议: AAAI 2026
arXiv: 2511.06727
代码: https://github.com/WanyuGroup/AAAI2026_S-DAG
领域: LLM Agent / 多Agent推理 / 模型路由
关键词: 学科级分析, 有向无环图, GNN推理, 专家模型组合, 异质推理

一句话总结¶

提出 S-DAG，通过 GNN 从问题中识别相关学科及其依赖关系构建有向无环图，将学科节点匹配到最擅长的专家 LLM（14 个 7-13B 领域模型），按 DAG 拓扑顺序协作推理（支撑学科→主导学科），用小模型池超越 GPT-4o-mini（59.73 vs 58.52）且接近 72B 模型。

研究背景与动机¶

领域现状：现有 MoE/路由方法（如 MoE Router、GraphRouter）在任务级别选择模型——对整个问题选一个模型或 Top-k 模型。但许多问题跨多个学科（如一道题同时涉及物理+数学+化学），任务级路由粒度太粗。
现有痛点：Multi-Agent Debate 让多个模型辩论但不区分各自专长；Symbolic-MoE 按技能选 Top-k 模型但忽略学科间的依赖关系（如解物理题需要先用数学推导）。
核心矛盾：需要同时解决三个问题：(a) 识别问题涉及哪些学科；(b) 确定学科间的信息流向（哪个支持哪个）；(c) 将每个学科匹配到最擅长的模型。
切入角度：将多学科问题建模为 DAG——学科是节点，依赖关系是有向边（支撑→主导），每个节点分配最佳专家模型。
核心 idea 一句话：GNN 做学科级 DAG 构建 + 模型能力画像匹配 + DAG 拓扑顺序多 Agent 协作推理。

方法详解¶

整体框架¶

两阶段：(1) GNN 构建 S-DAG（节点=学科，边=依赖）；(2) 按 DAG 拓扑顺序分配专家模型并协作推理。

关键设计¶

S-DAG Construction（GNN 构建）:
问题用 BERT 编码 → 与 15 个候选学科 embedding 融合 → GNN 有向消息传递更新节点特征 → 节点分类器判断学科相关性 + 边分类器判断依赖方向
Ground-truth S-DAG：用 LLM（qwen-turbo）对 15 个学科权重打分（3 轮取均值），低权重→高权重为支撑→主导方向
LLM Profiling（模型能力画像）:
14 个领域专家模型（DeepseekMath-7B, BioMistral-7B, Qwen2.5-Coder-7B 等）
200 个随机测试题建立 per-model per-subject 能力矩阵 \(C_{ij}\)
每个学科节点匹配得分最高的模型
DAG-guided Collaboration（协作推理）:
Subject Expert Agent（起始节点）：从自身领域视角处理原始问题
Supporting Agent（中间节点）：整合上游 Agent 输出 + 自身专长
Dominant Agent（终端节点）：综合所有输入给出最终答案

实验关键数据¶

主实验¶

方法	MMLU-Pro	GPQA	MedMCQA	平均
GPT-4o-mini (CoT)	49.42	47.31	78.82	58.52
Symbolic-MoE	48.13	45.92	78.55	57.53
MAD (Qwen2.5-7b)	45.82	46.81	76.55	56.39
S-DAG (7-13B 池)	50.98	49.82	78.38	59.73
Qwen2.5-72B (CoT)	50.81	48.98	80.44	60.08

消融实验¶

配置	平均准确率	推理时间	LLM 调用次数
无 GNN + 随机模型	41.12%	14.21s	5.1
有 GNN + 随机模型	42.19%	14.82s	4.1
无 GNN + 能力匹配	53.51%	14.53s	5.1
全连接图	57.29%	38.45s	8.2
S-DAG (完整)	59.73%	15.02s	4.1

关键发现¶

小模型池超越 GPT-4o-mini：S-DAG (7-13B) 59.73% vs GPT-4o-mini 58.52%，证明协作小模型可以替代大模型
模型能力匹配是最关键因素：随机匹配仅 42.19%，能力匹配 53.51%（+11.3pp），加 GNN DAG 再提到 59.73%
DAG 比全连接图更好更快：59.73% vs 57.29%（更准），15s vs 38.5s（2.5x 快），4.1 vs 8.2 次调用（半减）——冗余通信反而有害
GNN 的价值在于过滤噪声：LLM 生成的 S-DAG 标签有噪声/不一致，GNN 学习后能生成更鲁棒的图结构

亮点与洞察¶

学科级分析粒度比任务级更精细——同一道题的不同学科可以由不同专家模型处理，实现真正的"术业有专攻"
DAG 拓扑约束不仅提高了准确率还减少了计算——支撑学科先处理，主导学科综合，避免了全连接的冗余通信
用小模型池替代大模型的范式对实际部署有重要意义——14 个 7-13B 模型的总参数量远小于一个 72B 模型

局限性 / 可改进方向¶

仅在 MCQ benchmark 上评估，缺少开放式生成任务
15 个候选学科可能不够细粒度（如"医学"可以分为更多子学科）
模型能力画像仅用 200 个样本估算，样本量有限
需要维护 14 个模型的部署，增加了工程复杂度

评分¶

新颖性: ⭐⭐⭐⭐⭐ 学科级DAG构建+能力匹配+拓扑协作是多Agent推理的新范式
实验充分度: ⭐⭐⭐⭐ 3个benchmark+9个基线+完整消融，但只有MCQ格式
写作质量: ⭐⭐⭐⭐ 方法描述清晰，消融分析透彻
价值: ⭐⭐⭐⭐⭐ 小模型池超越大模型的结果有实际部署价值，DAG比全连接更好的发现有理论意义