跳转至

Near-Optimal Online Deployment and Routing for Streaming LLMs

会议: ICLR 2026
arXiv: 2506.17254
代码: 无
领域: LLM NLP / 系统优化
关键词: LLM路由, 在线部署, 节省计算, 竞争比分析, 流式服务

一句话总结

研究 LLM 流式服务场景中的在线部署与路由问题:给定一系列随时间变化的查询流,如何动态选择部署哪些模型并将查询路由到合适的模型,以在满足质量约束的同时最小化计算成本,提供达到近似最优竞争比的在线算法。

研究背景与动机

  1. 领域现状:LLM 服务提供商维护多个不同大小的模型(如 GPT-4/3.5/mini),将查询路由到合适的模型可以大幅节省成本。但查询分布随时间变化。
  2. 现有痛点
  3. 现有路由方法假设固定的模型集合,未考虑动态部署/卸载模型的成本
  4. 查询分布的漂移使得静态策略次优
  5. 缺少对联合部署+路由问题的理论分析
  6. 核心贡献:形式化为在线优化问题,证明 NP-hard,提供 \(O(\sqrt{T})\) 竞争比的在线算法。

方法详解

整体框架

将问题建模为带切换成本的在线资源分配:每个时间步决定部署哪些模型(有加载/卸载成本)+将查询路由到已部署模型(满足质量约束)。

关键设计

  1. 问题形式化:在线部署+路由联合优化,最小化推理成本+切换成本,受质量约束
  2. NP-hard 证明:通过归约到集合覆盖问题
  3. 在线算法:基于专家策略的在线镜像下降,达到 \(O(\sqrt{T})\) regret
  4. 实用近似:放松为可解的线性规划子问题

实验关键数据

方法 成本节省↑ 质量保持↑
全部用大模型 0% 100%
静态路由 ~30% ~97%
本文在线算法 ~50% ~95%

关键发现

  • 联合优化部署+路由比单独优化节省更多
  • 动态部署在查询分布变化时优势明显
  • 竞争比理论保证在实验中得到验证

亮点与洞察

  • 将 LLM 服务的部署+路由问题提升为严谨的在线优化问题,提供理论保证
  • 对 LLM 服务提供商的成本优化有直接实用价值

局限性

  • 简化的查询质量模型(二元:能/不能处理)
  • 未考虑延迟/吞吐量约束
  • 实验规模较小

相关工作

  • vs FrugalGPT/RouterBench: 路由但固定模型集;本文联合优化部署+路由
  • vs 云资源调度: 相似建模但将 LLM 质量约束纳入

评分

  • 新颖性: ⭐⭐⭐⭐ 首次形式化 LLM 在线部署+路由问题
  • 实验充分度: ⭐⭐⭐ 理论为主,实验规模偏小
  • 写作质量: ⭐⭐⭐⭐ 理论分析严谨
  • 价值: ⭐⭐⭐⭐ 对 LLM 服务拓扑优化有启发性