Efficient Training-Free Online Routing for High-Volume Multi-LLM Serving¶
会议: NeurIPS 2025
arXiv: 2509.02718
代码: https://github.com/fzwark/PORT
领域: LLM效率
关键词: LLM路由, 在线优化, 近似最近邻搜索, 对偶优化, 多模型服务
一句话总结¶
提出首个无需训练的在线 LLM 路由算法 PORT,通过近似最近邻搜索估计查询特征,并在少量初始查询上一次性优化对偶变量作为路由权重,在有限 token 预算下实现接近离线最优 (\(1-o(1)\) 竞争比) 的路由性能,平均较基线提升 3.55× 性能、1.85× 成本效率和 4.25× 吞吐量。
研究背景与动机¶
- 领域现状:LLM 服务提供商面临海量用户查询(如 OpenAI 峰值 12k QPS),不同 LLM 擅长不同领域且成本各异,将查询路由到最合适的模型是降低成本的关键手段。
- 现有痛点:现有路由方法要么依赖训练模型预测器(如 Roberta-based),计算开销大且部署变更需重训;要么依赖精确 KNN,复杂度高(\(O(|D|)\)),无法满足在线低延迟需求。
- 核心矛盾:现有方法均基于离线假设——假设所有查询同时到达可全局优化,但现实中查询顺序到达、未来查询未知,且 token 预算有限,离线 MILP 不可解。
- 本文要解决什么? (a) 如何在线场景下不训练模型进行高效路由?(b) 如何在有限预算约束下最大化整体服务质量?(c) 如何适应动态 LLM 部署配置变化?
- 切入角度:作者观察到路由问题的 LP 松弛对偶问题在最优解处可由单一对偶变量 \(\gamma\) 完全参数化,\(\gamma\) 实质是各 LLM 的路由权重。因此只需从少量初始查询学习 \(\gamma^*\) 即可指导后续路由。
- 核心idea一句话:用 ANNS 估计查询特征 + 对偶变量一次性优化 = 无训练、高效、有理论保证的在线路由。
方法详解¶
整体框架¶
PORT 算法分两阶段:(1) 探索阶段:对前 \(\epsilon|Q|\) 个查询(约 250 个)随机路由并记录特征,一次性优化求解对偶路由权重 \(\gamma^*\);(2) 利用阶段:对后续所有查询,用 ANNS 估计其在各 LLM 上的性能和成本,按 \(\arg\max_i(\alpha \hat{d}_{ij} - \hat{g}_{ij}\gamma_i^*)\) 路由。
关键设计¶
- 基于 ANNS 的特征估计:
- 做什么:快速估计每个查询在每个 LLM 上的性能 \(\hat{d}_{ij}\) 和成本 \(\hat{g}_{ij}\)
- 核心思路:维护历史数据集 \(D = \{j, a_j, d_j, g_j\}\),对新查询用 HNSW 在嵌入空间找 \(k\) 个近邻 \(R_j\),取均值估计:\(\hat{d}_{ij} = \frac{1}{|R_j|}\sum_{q \in R_j} d_{iq}\)
-
设计动机:相比训练预测器,ANNS 无需训练、更新历史数据即可适应部署变化,搜索复杂度仅 \(O(\log|D|)\) 远优于 KNN 的 \(O(|D|)\)
-
对偶驱动的路由权重学习:
- 做什么:将路由 MILP 松弛为 LP,求其对偶问题,学习最优路由权重 \(\gamma^*\)
- 核心思路:由互补松弛条件,最优路由规则为 \(x_{ij} > 0 \Leftrightarrow j\) 被分配到 \(\arg\max_i(\alpha\hat{d}_{ij} - \hat{g}_{ij}\gamma_i)\)。将对偶目标参数化为 \(F(\gamma) = \sum_i \gamma_i B_i + \sum_j \max_i(\alpha\hat{d}_{ij} - \hat{g}_{ij}\gamma_i)\),在探索阶段的小样本上最小化 \(F(\gamma, P)\) 求 \(\gamma^*\)
-
设计动机:对偶变量 \(\gamma\) 本质是各 LLM 预算的"影子价格",学好后可直接将预算约束转化为简单的线性评分规则
-
控制参数 \(\alpha\) 与 PAC 随机路由:
- 做什么:引入控制参数 \(\alpha\) 缩放目标函数;探索阶段采用随机路由
- 核心思路:\(\alpha\) 不改变最优解结构但控制未来查询的性能偏差(连接成本与性能);随机路由保证无偏采样,使 \(\gamma^*\) 对后续查询具有泛化性(PAC 学习思想)
- 设计动机:解决在线学习的泛化问题——从小样本学到的权重必须对大量未见查询有效
训练策略¶
无需任何模型训练。仅对 \(\epsilon|Q|\)(约 2.5%)个初始查询做一次凸优化求 \(\gamma^*\),计算开销可忽略不计。
实验关键数据¶
主实验¶
| 算法 | RouterBench Perf | RouterBench PPC | SPROUT Perf | SPROUT PPC | OpenLLM Perf | OpenLLM PPC |
|---|---|---|---|---|---|---|
| Random | 1384.3 | 3243.3 | 2827.6 | 3927.3 | 953.0 | 1284.4 |
| Greedy-Cost | 1626.3 | 3534.5 | 3934.7 | 4630.4 | 1051.0 | 1371.3 |
| BatchSplit | 1838.1 | 4005.9 | 3975.5 | 4784.5 | 1059.0 | 1392.1 |
| Roberta-Cost | 481.4 | 3738.9 | 3996.2 | 4709.2 | 1044.0 | 1362.5 |
| PORT (Ours) | 2718.6 | 6075.6 | 4513.1 | 5536.7 | 1465.0 | 2060.3 |
| 离线近似最优 | 3211.4 | 6975.2 | 5939.0 | 6986.5 | 1910.0 | 2493.7 |
PORT 在三个 benchmark 上相对近似最优分别达到 84.66%、75.99%、76.7%。
鲁棒性分析¶
| 实验维度 | 关键发现 |
|---|---|
| 查询量 4k→12k | PORT 优势随量增大而扩大,最高领先 BatchSplit 50% |
| 100 次随机查询顺序 | 各次运行一致优于所有基线,方差小 |
| LLM 数量 2→16 | 不同部署配置下均保持最优 |
| 预算倍率 0.25×→2× | 极端低预算下仍最优 |
| 极端预算分配 (80/20) | 单模型获 80% 预算时仍 2× 于 BatchSplit |
| 历史数据量 5k→25k | 对数据量不敏感 |
| 搜索候选数 3→10 | 3 个候选即可超越所有基线 |
亮点与洞察¶
- 无训练 + 有理论保证的在线路由:这是首个同时满足"无需训练"和"可证明竞争比 \(1-o(1)\)"的在线 LLM 路由算法,实用性极强。对偶视角将复杂的在线 MILP 简化为"一次优化 + 线性评分"。
- ANNS 替代 KNN 的巧妙设计:用 HNSW 图索引将搜索从 \(O(n)\) 降到 \(O(\log n)\),且历史数据可动态增量更新,完美适配 LLM 部署的动态性。
- PAC 随机路由保证泛化:探索阶段不做贪心路由而是随机路由,牺牲少量(2.5%)查询的最优性换取权重的无偏估计,是经典在线学习思想的巧妙应用。
- 可迁移性:对偶分解 + ANNS 的框架可迁移到其他资源受限的在线分配问题(如广告投放、云资源调度)。
局限性 / 可改进方向¶
- 仅建模性能和成本:未考虑查询流量、系统负载等动态运营因素,这些与负载均衡相关但被排除在当前 MILP 之外。
- Assumption 1 的实际满足:假设嵌入距离近的查询具有相似的 LLM 性能/成本,对跨域查询或 OOD 场景可能不成立。
- 探索阶段的冷启动:需要积累历史数据集 \(D\),对全新部署场景不适用。
- 单查询单 LLM:未考虑 ensemble 或级联策略,可能错过多模型协作的收益。
评分¶
- 新颖性: ⭐⭐⭐⭐ 对偶视角 + ANNS 的在线路由方案很新颖,但基本工具(ANNS、LP对偶)均为成熟技术
- 实验充分度: ⭐⭐⭐⭐⭐ 3 个 benchmark、8 个基线、极其全面的鲁棒性分析
- 写作质量: ⭐⭐⭐⭐ 理论部分清晰严谨,但符号较多,入门门槛较高
- 价值: ⭐⭐⭐⭐ 解决了实际的在线 LLM 路由问题,有理论+工程双重价值
与相关工作的对比¶
| 方法类别 | 代表工作 | PORT 优势 |
|---|---|---|
| 模型预测器路由 | RouteLLM, CARROT (Roberta-based) | 无需训练,部署变更无需重训,延迟更低 |
| KNN 路由 | RouterBench (精确 KNN) | ANNS 搜索 \(O(\log n)\) vs KNN \(O(n)\),延迟降低数量级 |
| 级联/集成 | FrugalGPT, AutoMix | 单次路由 vs 多次调用,延迟和成本更低 |
| 在线 MILP | Cerebrum, On-the-fly | 对偶分解避免逐批求解 LP,一次优化后线性评分 |
| BatchSplit | 小批量 LP | PORT 利用全局对偶信息,性能高 33%、吞吐高 24% |
核心区别:PORT 是唯一同时满足"无训练"、"在线"、"有理论保证"三个条件的路由算法。其他方法至少缺少其中一项。
启发与关联¶
- 对偶分解的通用性:将在线资源分配问题转化为"学习对偶变量 → 线性评分"的范式,可迁移到广告竞价、云资源调度、CDN 路由等场景。关键洞察是对偶变量本质是资源的影子价格,学好后可实现去中心化决策。
- ANNS 作为通用特征估计器:不依赖任务特定的训练模型,而是用近邻检索做非参数估计,天然支持增量更新和分布漂移。这种思路可应用于任何需要实时特征估计的在线系统。
- 与 MoE 路由的关联:PORT 的路由权重学习与 MoE 的 gating 机制有相似之处(都是学习将输入分配到不同专家/模型),但 PORT 在系统级而非层级做路由,且有预算约束。
- 探索-利用的工程化:2.5% 探索比例 + PAC 随机路由是经典在线学习理论的工程化实践,为在线 ML 系统设计提供了参考范式。