跳转至

📚 AI Paper Notes

Near-Optimal Online Deployment and Routing for Streaming LLMs

Near-Optimal Online Deployment and Routing for Streaming LLMs¶

会议: ICLR 2026
arXiv: 2506.17254
代码: 无
领域: LLM NLP / 系统优化
关键词: LLM路由, 在线部署, 节省计算, 竞争比分析, 流式服务

一句话总结¶

研究 LLM 流式服务场景中的在线部署与路由问题：给定一系列随时间变化的查询流，如何动态选择部署哪些模型并将查询路由到合适的模型，以在满足质量约束的同时最小化计算成本，提供达到近似最优竞争比的在线算法。

研究背景与动机¶

领域现状：LLM 服务提供商维护多个不同大小的模型（如 GPT-4/3.5/mini），将查询路由到合适的模型可以大幅节省成本。但查询分布随时间变化。
现有痛点：
现有路由方法假设固定的模型集合，未考虑动态部署/卸载模型的成本
查询分布的漂移使得静态策略次优
缺少对联合部署+路由问题的理论分析
核心贡献：形式化为在线优化问题，证明 NP-hard，提供 \(O(\sqrt{T})\) 竞争比的在线算法。

方法详解¶

整体框架¶

将问题建模为带切换成本的在线资源分配：每个时间步决定部署哪些模型（有加载/卸载成本）+将查询路由到已部署模型（满足质量约束）。

关键设计¶

问题形式化：在线部署+路由联合优化，最小化推理成本+切换成本，受质量约束
NP-hard 证明：通过归约到集合覆盖问题
在线算法：基于专家策略的在线镜像下降，达到 \(O(\sqrt{T})\) regret
实用近似：放松为可解的线性规划子问题

实验关键数据¶

方法	成本节省↑	质量保持↑
全部用大模型	0%	100%
静态路由	~30%	~97%
本文在线算法	~50%	~95%

关键发现¶

联合优化部署+路由比单独优化节省更多
动态部署在查询分布变化时优势明显
竞争比理论保证在实验中得到验证

亮点与洞察¶

将 LLM 服务的部署+路由问题提升为严谨的在线优化问题，提供理论保证
对 LLM 服务提供商的成本优化有直接实用价值

局限性¶

简化的查询质量模型（二元：能/不能处理）
未考虑延迟/吞吐量约束
实验规模较小

相关工作¶

vs FrugalGPT/RouterBench: 路由但固定模型集；本文联合优化部署+路由
vs 云资源调度: 相似建模但将 LLM 质量约束纳入

评分¶

新颖性: ⭐⭐⭐⭐ 首次形式化 LLM 在线部署+路由问题
实验充分度: ⭐⭐⭐ 理论为主，实验规模偏小
写作质量: ⭐⭐⭐⭐ 理论分析严谨
价值: ⭐⭐⭐⭐ 对 LLM 服务拓扑优化有启发性