Universe Routing: Why Self-Evolving Agents Need Epistemic Control¶

会议: ICLR2026
arXiv: 2603.14799
代码: 待确认
领域: llm_agent / reasoning framework selection
关键词: 认知路由, 信念空间, 硬路由, 持续学习, MoE

一句话总结¶

形式化"宇宙路由"问题——将问题分类到互斥的信念空间（频率主义/贝叶斯/经典物理/量子等）后再调用专用求解器，证明硬路由优于软路由（7× 快且等精度），且模块化架构天然适合持续学习。

背景与动机¶

自主 Agent 链式推理中的致命失败模式：不是缺乏知识，而是无法选择正确的推理框架
频率主义 vs 贝叶斯统计是认识论不相容的——混合使用产生结构性错误而非程度错误
例如"p 值是假设为真的概率"——不是量上的错误，而是类别上的错误
下游推理步骤继承污染，错误沿决策链传播
简单地扩大模型规模无法解决：更大的 LLM 可能更流畅，但流畅性不保证认知一致性
问题的本质是架构性的：缺乏显式的推理框架选择机制

方法详解¶

问题形式化： - 信念空间宇宙 u = (A_u, I_u, S_u)：公理集 + 推理流程 + 求解器 - 7 个宇宙：STAT_FREQ, STAT_BAYES, PHYS_CLASSICAL, PHYS_QUANTUM, PHYS_RELATIVITY, STAT_MIXED, STAT_ILL_POSED - Proposition 1：认知不相容框架的任何凸组合都语义不一致

路由器： - 微调 Qwen-1.5-0.5B (465M) + 分类头 - 另评估 BERT-base (110M), DistilBERT (67M), RoBERTa-base (125M) - 关键实现细节：必须使用 FP32（FP16 导致梯度溢出，精度降至 18.99%）

数据集：685 样本，GPT-4 生成 + 专家约束，7 类平衡分布 - 训练/验证/测试：477/99/109 + 56 个 OOD 样本

硬路由 vs 软路由： - 硬路由=argmax 选择 → 精度相同但 7× 更快 - 理论依据：Proposition 1 证明加权平均不相容框架无语义意义

实验关键数据¶

方法	Test Acc	Unseen Acc	泛化差距
TF-IDF (SVM)	98.17%	71.43%	26.74%
DistilBERT (67M)	98.17%	83.93%	14.24%
Qwen-1.5-0.5B	97.25%	83.93%	13.32%
Qwen 集成 (×5)	98.17%	89.29%	8.88%

硬路由 vs 软路由：97.25% = 97.25%，推理时间 5.5ms vs 38.2ms
对抗鲁棒性：TF-IDF ASR=65.75%，语义路由 ASR=1.53%（43× 更鲁棒）
465M 路由器 vs 云模型 (80B-1T)：速度快 88-775×，精度无统计显著差异(5/6模型)
持续学习（5→7 宇宙）：Rehearsal(10%) 零遗忘 vs EWC 75% 遗忘

亮点¶

认知不相容的形式化：Proposition 1 严格证明混合不相容框架的输出无效
硬路由的"逻辑必要性"论证：不是效率妥协而是语义正确性要求
对抗鲁棒性实验有力：关键词注入骗过 TF-IDF 90% 但仅骗过语义路由 4.6%
模块化 + Rehearsal 实现零遗忘——EWC 的对角 Fisher 近似无法捕获模块结构

局限性 / 可改进方向¶

数据集仅 685 样本、7 个宇宙，局限于数学/物理领域
硬路由无法处理需跨框架的多步任务
测试集仅 109 样本，统计效力有限
仅评估路由精度，未评估端到端求解性能
未扩展到法律、伦理、因果等推理框架

与相关工作的对比¶

vs Adaptive-RAG：从检索策略路由扩展到推理框架路由——质的不同
vs MoE (Mixtral)：MoE 的软路由适用于同质专家，不适用于认知不相容的异质求解器
vs ReAct/Reflexion：这些解决"如何推理"，本文解决"用哪个框架推理"

评分¶

新颖性: ⭐⭐⭐⭐ 认知路由是有意义的新问题，形式化优雅
实验充分度: ⭐⭐⭐ 数据/任务规模偏小，领域有限
写作质量: ⭐⭐⭐⭐ 论证逻辑清晰，理论+实证结合
价值: ⭐⭐⭐ 概念有启发性但实际影响待扩展验证