Near-Optimal Online Deployment and Routing for Streaming LLMs¶
会议: ICLR 2026
arXiv: 2506.17254
代码: 无
领域: LLM NLP / 系统优化
关键词: LLM路由, 在线部署, 节省计算, 竞争比分析, 流式服务
一句话总结¶
研究 LLM 流式服务场景中的在线部署与路由问题:给定一系列随时间变化的查询流,如何动态选择部署哪些模型并将查询路由到合适的模型,以在满足质量约束的同时最小化计算成本,提供达到近似最优竞争比的在线算法。
研究背景与动机¶
- 领域现状:LLM 服务提供商维护多个不同大小的模型(如 GPT-4/3.5/mini),将查询路由到合适的模型可以大幅节省成本。但查询分布随时间变化。
- 现有痛点:
- 现有路由方法假设固定的模型集合,未考虑动态部署/卸载模型的成本
- 查询分布的漂移使得静态策略次优
- 缺少对联合部署+路由问题的理论分析
- 核心贡献:形式化为在线优化问题,证明 NP-hard,提供 \(O(\sqrt{T})\) 竞争比的在线算法。
方法详解¶
整体框架¶
将问题建模为带切换成本的在线资源分配:每个时间步决定部署哪些模型(有加载/卸载成本)+将查询路由到已部署模型(满足质量约束)。
关键设计¶
- 问题形式化:在线部署+路由联合优化,最小化推理成本+切换成本,受质量约束
- NP-hard 证明:通过归约到集合覆盖问题
- 在线算法:基于专家策略的在线镜像下降,达到 \(O(\sqrt{T})\) regret
- 实用近似:放松为可解的线性规划子问题
实验关键数据¶
| 方法 | 成本节省↑ | 质量保持↑ |
|---|---|---|
| 全部用大模型 | 0% | 100% |
| 静态路由 | ~30% | ~97% |
| 本文在线算法 | ~50% | ~95% |
关键发现¶
- 联合优化部署+路由比单独优化节省更多
- 动态部署在查询分布变化时优势明显
- 竞争比理论保证在实验中得到验证
亮点与洞察¶
- 将 LLM 服务的部署+路由问题提升为严谨的在线优化问题,提供理论保证
- 对 LLM 服务提供商的成本优化有直接实用价值
局限性¶
- 简化的查询质量模型(二元:能/不能处理)
- 未考虑延迟/吞吐量约束
- 实验规模较小
相关工作¶
- vs FrugalGPT/RouterBench: 路由但固定模型集;本文联合优化部署+路由
- vs 云资源调度: 相似建模但将 LLM 质量约束纳入
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次形式化 LLM 在线部署+路由问题
- 实验充分度: ⭐⭐⭐ 理论为主,实验规模偏小
- 写作质量: ⭐⭐⭐⭐ 理论分析严谨
- 价值: ⭐⭐⭐⭐ 对 LLM 服务拓扑优化有启发性