Mastering Multiple-Expert Routing: Realizable H-Consistency and Strong Guarantees¶

会议: ICML 2025
arXiv: 2506.20650
代码: 无
领域: Medical Imaging (Learning to Defer/Expert Routing)
关键词: 学习延迟, 多专家路由, H-一致性, 代理损失, Bayes 一致性

一句话总结¶

本文为多专家路由(learning to defer)问题提出了新的代理损失函数和高效算法，建立了可实现 H-一致性、H-一致性界和 Bayes 一致性的理论保证，覆盖单阶段和两阶段两种学习场景。

研究背景与动机¶

领域现状：多专家路由（或称 learning to defer）是将输入实例最优地分配给不同专家（包括 AI 模型和人类专家）的决策问题，在 NLP 生成、图像处理和医学诊断中日益重要。例如：简单问题由小模型处理，复杂问题转交大模型或人类专家。

现有痛点：近期研究提出了各种代理损失函数来优化路由决策，但在一致性保证方面存在未解决的问题。特别是：(1) 现有代理损失的可实现 H-一致性(realizable H-consistency)未被证明；(2) H-一致性界(H-consistency bounds)是否存在？(3) 多专家场景下的 Bayes 一致性如何保证？

核心矛盾：实际部署中需要的是有限假设空间 H 上的保证（而非无限容量），但现有理论多停留在 Bayes 一致性（无限容量）层面。路由的 0-1 损失不可优化，需要代理损失，但代理损失的后果需要量化。

本文目标：为单阶段和两阶段多专家路由提供完整的理论保证框架。

切入角度：从代理损失设计出发，通过严格的数学分析建立各层次的一致性保证。

核心 idea：设计一族新的代理损失，同时满足可实现 H-一致性和 H-一致性界，为多专家路由提供最强理论保证。

方法详解¶

整体框架¶

问题定义：给定输入 \(x\)，从 \(K+1\) 个选项中选择（\(K\) 个专家 + 预测器自身），目标最小化分配的总误差和计算成本
单阶段：同时学习预测器和路由函数
两阶段：固定专家，仅学习路由函数

关键设计¶

单阶段的可实现 H-一致代理损失族:
- 提出一族新的代理损失函数，满足可实现 H-一致性
- 可实现 H-一致性含义：当代理损失达到 H 中的最优时，原始 0-1 损失也在 H 中达到最优
- 进一步证明其中一个特定成员满足 H-一致性界（量化代理损失差距→原始损失差距的关系）
- 为什么重要：这是最强的一致性保证，之前仅有 Bayes 一致性（需要无限容量假设）
两阶段的多层次理论保证:
- 对两专家场景：推导新的代理损失，同时满足可实现 H-一致性、H-一致性界和 Bayes 一致性
- 对多专家场景：在自然假设下（专家误差有界）也获得了类似保证
- 为什么重要：两阶段更实用（专家通常已部署），但理论分析更困难
低噪声条件下的增强保证:
- 在低噪声假设下（即大多数输入有明确的最优选择），给出更紧的界
- 包括：更快的收敛速率、更小的常数
- 为什么重要：实际场景中大多数输入确实有明确最优路由

损失函数 / 训练策略¶

单阶段代理损失：一族参数化损失 \(\Phi_\alpha\)，满足凸性+一致性
两阶段代理损失：专为固定专家场景设计的新损失
训练方法：标准梯度下降/SGD（代理损失保证可优化性）
超参数 \(\alpha\) 控制不同一致性性质的权衡

实验关键数据¶

主实验¶

数据集	设置	本文方法	现有基线	说明
CIFAR-10 + expert	两阶段/2专家	更好	L2D 系列	Acc 提升
CIFAR-100 + expert	两阶段/多专家	更好	CE-based	Acc 提升
HAM10000 (皮肤)	医学路由	竞争力	现有方法	安全关键场景
NLP routing	多专家	更好	mixture baselines	NLG 任务

消融实验¶

配置	关键指标	说明
不同 \(\alpha\) 值	单调变化	验证参数化族的可控性
仅 Bayes 一致	泛化差	有限容量下需要 H-一致性
单阶段 vs 两阶段	各有优势	取决于是否可重训专家
低噪声 vs 高噪声	低噪声更好	验证增强保证

关键发现¶

新代理损失在实验中一致优于或持平现有方法
理论保证在有限容量（实际网络）场景中确实转化为更好的性能
低噪声条件下的改善更明显
医学路由场景中安全性保证具有实际意义

亮点与洞察¶

理论完备性：首次为多专家路由提供可实现 H-一致性 + H-一致性界 + Bayes 一致性的完整理论
实用性：理论不是纸上谈兵，新损失在实验中确实表现更好
全面覆盖：单阶段+两阶段、双专家+多专家、一般条件+低噪声条件
回答开放问题：解决了之前文献中的多个未解决理论问题

局限与展望¶

多专家的完整保证需要自然假设（专家误差有界），不完全无条件
实验规模相对较小，大规模 LLM routing 验证不足
计算成本模型较简化（假设已知每个专家的成本）
动态/非平稳专家场景未考虑

评分¶

新颖性: ⭐⭐⭐⭐ 理论贡献扎实
实验充分度: ⭐⭐⭐⭐ 多场景验证
写作质量: ⭐⭐⭐⭐ 理论严谨
价值: ⭐⭐⭐⭐ 为多专家路由提供了坚实的理论基础