BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute¶

会议: ICML 2025
arXiv: 2506.22716
作者: Dujian Ding (UBC/Microsoft), Ankur Mallick (Microsoft), Shaokun Zhang (Penn State), Chi Wang (Google DeepMind), Victor Rühle (Microsoft) 等机构: University of British Columbia, Microsoft, Pennsylvania State University, Google DeepMind, AG2AI 领域: LLM/NLP
关键词: LLM routing, best-of-n sampling, 测试时计算, 成本优化, 自适应推理

一句话总结¶

提出 BEST-Route（Best-of-n Enhanced Sampling and Test-time Route Optimization），在传统查询路由的基础上引入 best-of-n 采样策略，使路由器不仅选择模型，还自适应决定采样数量 n，通过小模型多次采样+选优替代大模型单次调用，在不到 1% 性能损失下降低高达 60% 的推理成本。

研究背景与动机¶

核心矛盾¶

LLM 推理面临质量-成本权衡的根本矛盾：大模型（如 GPT-4）质量高但成本昂贵，小模型（如 Llama 系列）成本低但单次响应质量不足。现有三种主要策略试图缓解这一矛盾：

Query Routing：根据查询难度将请求分配给不同规模的模型（Ong et al., 2024）

Speculative Decoding：小模型草稿 + 大模型验证的 token 级协作（Kim et al., 2023）

Model Cascades：从便宜模型开始逐级升级，直到获得满意响应（Chen et al., 2023）

现有方法的关键缺陷¶

先前的查询路由方法存在一个核心问题：每个模型只生成一次响应。这意味着：

小模型的单次响应质量经常不够好，无法与大模型竞争
路由器不得不将大量查询（除最简单的外）分配给大模型
实际的成本节省远低于理论预期

关键观察¶

作者注意到一个重要但被忽视的现象：小模型通过 best-of-n 采样可以大幅提升响应质量。具体来说，对小模型采样 n 次并选出最优响应，其质量可以接近甚至超过大模型的单次响应，而总成本（n 次小模型调用）仍然低于一次大模型调用。这一观察来源于 test-time compute scaling 的最新研究（Snell et al., 2024），即在推理时增加计算量可以有效提升模型性能。

动机公式化¶

设大模型单次调用成本为 \(C_L\)，小模型单次调用成本为 \(C_S\)，若 \(n \cdot C_S < C_L\)，则对小模型采样 n 次仍比调用大模型一次便宜。当 best-of-n 选择策略能使小模型 n 次采样中的最优响应质量逼近大模型时，路由器就能将更多查询分配给小模型，从而显著降低总成本。

方法详解¶

整体框架¶

BEST-Route 的系统架构包含三个核心组件：

查询难度评估器（Query Difficulty Estimator）：对输入查询的难度进行评分，判断其需要多强的模型能力
模型选择路由器（Model Selector/Router）：根据难度评分选择调用大模型还是小模型
采样数量决策器（Sampling Number Decider）：当选择小模型时，自适应决定采样次数 n，以在满足质量阈值的前提下最小化成本

工作流程如下： - 输入查询 \(q\) → 评估难度 \(d(q)\) - 若 \(d(q)\) 超过阈值，直接路由到大模型，生成 1 个响应 - 若 \(d(q)\) 在中等范围，路由到小模型，采样 \(n(q)\) 个响应，用选择策略选出最优 - 若 \(d(q)\) 极低，路由到小模型，采样 1 个响应即可

关键设计¶

Best-of-n 采样与选择¶

BEST-Route 将 test-time compute 引入路由框架的核心机制：

采样阶段：对小模型以温度 \(T > 0\) 采样生成 n 个独立响应 \(\{r_1, r_2, \dots, r_n\}\)
选择阶段：使用奖励模型或轻量评分器对 n 个响应打分，选出得分最高的作为最终输出
自适应 n 值：n 不是固定的，而是根据查询难度动态调整——中等难度查询需要较大的 n，简单查询 n=1 即可

路由优化目标¶

路由决策可以形式化为一个约束优化问题：

\[\min_{f} \mathbb{E}_{q \sim Q}\left[\text{Cost}(f(q))\right] \quad \text{s.t.} \quad \mathbb{E}_{q \sim Q}\left[\text{Quality}(f(q))\right] \geq \tau\]

其中 \(f(q)\) 表示对查询 \(q\) 的路由决策（选择哪个模型 + 采样多少次），\(\tau\) 是质量阈值。BEST-Route 通过扩展决策空间——从 "选择模型" 扩展到 "选择模型 × 采样次数"——在保持质量约束的同时找到更低成本的解。

质量阈值机制¶

系统允许用户设定不同的质量阈值 \(\tau\)，实现灵活的质量-成本权衡： - 高 \(\tau\)：更多查询路由到大模型，质量优先 - 低 \(\tau\)：更多查询由小模型 best-of-n 处理，成本优先 - 自适应 \(\tau\)：根据应用场景动态调整

训练策略¶

路由器训练¶

路由器的训练需要解决两个核心问题：

难度标注获取：通过在训练集上同时收集大、小模型在不同 n 值下的响应质量，构建每个查询的最优路由标签
成本感知学习：在训练目标中同时考虑质量和成本，使路由器学会在两者间做最优权衡

与 Test-Time Compute Scaling 的结合¶

BEST-Route 的核心创新在于将 test-time compute scaling（Snell et al., 2024）的思想系统性地融入路由框架：

传统路由：决策空间为 \(\{M_1, M_2, \dots, M_K\}\)（K 个模型的选择）
BEST-Route：决策空间为 \(\{(M_i, n_j) | i \in [K], j \in [N_{max}]\}\)（模型 × 采样次数的组合）

这一扩展使路由器能够找到 Pareto 最优的组合——例如选择小模型采样 5 次可能比大模型单次调用质量相当但成本仅为 1/3。

实验分析¶

主要结果¶

基于论文摘要报告的核心实验数据（在真实世界数据集上测试）：

方法	成本降低	性能损失	路由策略
单一大模型 (baseline)	0%	0%	所有查询 → 大模型
传统路由 (prior work)	10-25%	1-3%	简单→小, 难→大
BEST-Route	高达 60%	< 1%	简单→小(n=1), 中→小(best-of-n), 难→大
单一小模型 (baseline)	最大	显著	所有查询 → 小模型

与先前路由方法对比¶

维度	传统路由方法	BEST-Route
决策空间	模型选择	模型选择 × 采样次数
小模型利用率	低（仅处理简单查询）	高（中等难度也可处理）
Test-time compute	未利用	核心机制
成本节省	有限	显著（最高 60%）
质量保证	取决于路由准确性	质量阈值 + best-of-n 兜底

关键发现¶

Best-of-n 的边际效益递减但早期收益极大：小模型从 n=1 到 n=3-5 的质量提升最为显著，之后边际收益递减。这意味着适度的额外计算（3-5 倍小模型成本）即可大幅缩小与大模型的差距。
查询难度分布的长尾特性：在实际工作负载中，大部分查询是中等或偏简单的，真正需要大模型的困难查询只占少数。这为 BEST-Route 提供了巨大的成本优化空间。
成本-质量 Pareto 前沿的扩展：通过引入 (模型, n) 的联合决策空间，BEST-Route 显著扩展了可达的 Pareto 前沿，使得在相同质量下存在更低成本的可行解。

亮点与洞察¶

思路简洁但效果强大：核心 idea 非常直觉——"小模型多试几次"比"大模型试一次"可能更划算。但将这一观察系统化为路由框架，并提供自适应的 n 值选择机制，是本文的关键贡献。
弥合了两个领域的 gap：将 test-time compute scaling 的思想（原本关注单模型内的计算分配）与 LLM routing（关注多模型间的任务分配）有机结合，拓展了两个方向的研究视野。
实用价值极高：60% 的成本降低对大规模 LLM 部署具有直接的经济意义。对于 API 服务商和企业用户，这意味着在保持服务质量的同时将推理预算降低大半。
与 scaling law 观察一致：小模型 best-of-n 的有效性与 inference-time scaling law 的发现一致——在推理阶段投入更多计算可以弥补模型参数量的不足。

局限性¶

选择策略的依赖：best-of-n 的效果高度依赖选择器（reward model 或 verifier）的质量。如果选择器本身不可靠，多次采样可能无法选出真正最优的响应。
延迟问题：虽然总成本降低，但 n 次串行采样会增加端到端延迟。在延迟敏感的场景中，需要并行采样，这又增加了系统复杂度。
缓存不变性假设：论文假设模型的能力分布在推理期间不变，但实际部署中模型可能更新、输入分布可能漂移，路由器需要持续校准。
评估指标的局限：不同应用场景对"质量"的定义不同（事实准确性 vs 创造性 vs 代码正确性），统一的质量阈值可能不适用于所有场景。
模型组合扩展性：当候选模型数量增多时，(模型, n) 的联合决策空间急剧增大，路由器训练和推理的复杂度也随之上升。

评分¶

维度	分数 (1-5)	说明
创新性	4	将 best-of-n 和路由结合的 idea 简洁有效，虽非全新概念但组合方式新颖
实用性	5	60% 成本降低对 LLM 部署有直接且显著的经济价值
技术深度	3	方法相对直观，核心贡献在于系统化框架而非技术突破
实验充分性	3	摘要提及真实数据集验证，但缓存中缺少详细实验设置和消融信息
写作质量	4	问题动机清晰，框架描述系统，图示直观

总评: 4/5 — 一篇实用价值极高的工作，核心 idea 简洁优雅，将 test-time compute scaling 与 LLM routing 有机结合，在成本-质量权衡上取得了显著的 Pareto 改进。方法的技术门槛不高但工程意义重大，对 LLM 规模化部署具有直接的指导意义。