Routing, Cascades, and User Choice for LLMs¶
会议: ICLR2026
arXiv: 2602.09902
代码: 无
领域: llm_alignment
关键词: LLM routing, cascading, Stackelberg game, user-provider misalignment, throttling
一句话总结¶
将 LLM 路由建模为 provider-user Stackelberg 博弈,证明最优路由策略几乎总是静态无级联的阈值规则,并揭示当模型质量排序与成本排序不一致时产生的用户-提供商不对齐问题,以及低流失惩罚下 provider 有动机通过增加延迟来降低成本。
背景与动机¶
- LLM 提供商通过路由/级联策略在标准模型和推理模型之间分配任务,以平衡质量、延迟和成本
- 现有路由算法将用户行为视为外生变量,忽略了用户可能因延迟放弃任务或取消订阅
- GPT-5 等已在实践中部署路由策略,但缺乏对用户反应行为的理论分析
- 多轮交互场景下,模型失败后用户可选择重新提问或放弃,使得单次成本优化不足以刻画全局最优
- 需要理解何时路由策略符合用户利益,何时产生不对齐
方法详解¶
模型设置: Provider 有两个模型 \(M_1\)(标准)和 \(M_2\)(推理),成本 \(c_1 < c_2\),延迟 \(t_1 < t_2\),成功率 \(p_1 < p_2\)。用户净值 \(\xi_i = Vp_i - t_i\)。
Stackelberg 博弈: Provider 先选策略 \((i, s)\)(初始路由模型 \(i\) + 级联概率 \(s\)),用户后选放弃概率 \(q\)。用户最大化期望效用 \(U = VS - L\)(成功价值减延迟),Provider 最小化服务成本加流失惩罚 \(J = C + P(1-S)\)。
用户最优响应 (Theorem 1-2): - 两模型同为 value-dominated (\(\xi_i > 0\)): 用户永不放弃 - 两模型同为 latency-dominated (\(\xi_i < 0\)): 用户总是放弃 - \(\xi_1 < 0 < \xi_2\): 用户仅在级联概率 \(s > s_0\) 时留下 - \(\xi_1 > 0 > \xi_2\): 存在阈值 \(s_L, s_H\),用户行为分三段
Provider 最优策略 (Theorem 3-5): 几乎所有情况下最优策略是静态的(路由到单一模型,无级联),仅在模型差异化且惩罚适中时级联有价值。
不对齐分析 (Proposition 1): 当 Provider 的成本排序 \(c_i/p_i\) 与用户的效用排序 \(\xi_i/p_i\) 不一致时,产生不对齐缺口 \(\Delta_U > 0\)。
延迟节流 (Proposition 2): 当流失惩罚 \(P \leq \min\{c_i/p_i\}\) 时,Provider 有动机人为增加延迟使 \(\hat{t}_i > Vp_i\),迫使用户放弃以降低服务成本。
实验关键数据¶
- 本文为理论分析,通过数学证明和热力图可视化展示结果
- 用户行为在模型 value-dominated 一致时完全静态,不受路由策略影响
- 最优策略几乎总是 \((i^*, s^*) \in \{(1,0), (2,0)\}\),级联仅在窄区间有价值
- 节流收益与 \(P\) 线性相关:\(\min_i\{c_i/p_i\} - \min_i\{c_i + P(1-p_i)\}\)
- 防止节流的条件:\(P > \min\{c_1/p_1, c_2/p_2\}\)
亮点¶
- 首次将 LLM 路由问题建模为考虑用户行为的 Stackelberg 博弈,所有结果有闭式解
- 揭示级联策略几乎无用的反直觉结论——静态单模型路由在多数情况最优
- 发现延迟节流激励机制:低流失惩罚下 Provider 可能故意降低服务质量
- 理论清晰、定理结构完整,为 LLM 定价和路由提供可操作的阈值规则
局限性 / 可改进方向¶
- 仅考虑两个模型和单用户的简化设置,未扩展到多模型/多用户竞争场景
- 假设成功概率 i.i.d.,未考虑多轮交互中用户反馈改善后续成功率
- 用户净值 \(V\) 和延迟 \(t_i\) 在实际中难以精确估计
- 未包含实证验证——全部为理论分析和仿真
- 假设用户完全知晓路由参数,实际中信息不对称更严重
与相关工作的对比¶
- Chen et al. / Dekoninck et al.: 优化路由算法但不建模用户行为
- Mahmood (2024): 单模型多轮交互的 cost-of-pass 分析,本文扩展到双模型路由
- Shirali (2025): 研究交互式对齐的 Stackelberg 博弈,但关注用户信号而非路由
评分¶
- 新颖性: ⭐⭐⭐⭐ (博弈论视角分析 LLM 路由新颖)
- 实验充分度: ⭐⭐⭐ (纯理论,缺乏实证)
- 写作质量: ⭐⭐⭐⭐⭐ (定理清晰,图示直观)
- 价值: ⭐⭐⭐⭐ (对 LLM 路由实践有指导意义)