Routing, Cascades, and User Choice for LLMs¶

会议: ICLR2026
arXiv: 2602.09902
代码: 无
领域: llm_alignment
关键词: LLM routing, cascading, Stackelberg game, user-provider misalignment, throttling

一句话总结¶

将 LLM 路由建模为 provider-user Stackelberg 博弈，证明最优路由策略几乎总是静态无级联的阈值规则，并揭示当模型质量排序与成本排序不一致时产生的用户-提供商不对齐问题，以及低流失惩罚下 provider 有动机通过增加延迟来降低成本。

背景与动机¶

LLM 提供商通过路由/级联策略在标准模型和推理模型之间分配任务，以平衡质量、延迟和成本
现有路由算法将用户行为视为外生变量，忽略了用户可能因延迟放弃任务或取消订阅
GPT-5 等已在实践中部署路由策略，但缺乏对用户反应行为的理论分析
多轮交互场景下，模型失败后用户可选择重新提问或放弃，使得单次成本优化不足以刻画全局最优
需要理解何时路由策略符合用户利益，何时产生不对齐

方法详解¶

模型设置: Provider 有两个模型 \(M_1\)（标准）和 \(M_2\)（推理），成本 \(c_1 < c_2\)，延迟 \(t_1 < t_2\)，成功率 \(p_1 < p_2\)。用户净值 \(\xi_i = Vp_i - t_i\)。

Stackelberg 博弈: Provider 先选策略 \((i, s)\)（初始路由模型 \(i\) + 级联概率 \(s\)），用户后选放弃概率 \(q\)。用户最大化期望效用 \(U = VS - L\)（成功价值减延迟），Provider 最小化服务成本加流失惩罚 \(J = C + P(1-S)\)。

用户最优响应 (Theorem 1-2): - 两模型同为 value-dominated (\(\xi_i > 0\)): 用户永不放弃 - 两模型同为 latency-dominated (\(\xi_i < 0\)): 用户总是放弃 - \(\xi_1 < 0 < \xi_2\): 用户仅在级联概率 \(s > s_0\) 时留下 - \(\xi_1 > 0 > \xi_2\): 存在阈值 \(s_L, s_H\)，用户行为分三段

Provider 最优策略 (Theorem 3-5): 几乎所有情况下最优策略是静态的（路由到单一模型，无级联），仅在模型差异化且惩罚适中时级联有价值。

不对齐分析 (Proposition 1): 当 Provider 的成本排序 \(c_i/p_i\) 与用户的效用排序 \(\xi_i/p_i\) 不一致时，产生不对齐缺口 \(\Delta_U > 0\)。

延迟节流 (Proposition 2): 当流失惩罚 \(P \leq \min\{c_i/p_i\}\) 时，Provider 有动机人为增加延迟使 \(\hat{t}_i > Vp_i\)，迫使用户放弃以降低服务成本。

实验关键数据¶

本文为理论分析，通过数学证明和热力图可视化展示结果
用户行为在模型 value-dominated 一致时完全静态，不受路由策略影响
最优策略几乎总是 \((i^*, s^*) \in \{(1,0), (2,0)\}\)，级联仅在窄区间有价值
节流收益与 \(P\) 线性相关：\(\min_i\{c_i/p_i\} - \min_i\{c_i + P(1-p_i)\}\)
防止节流的条件：\(P > \min\{c_1/p_1, c_2/p_2\}\)

亮点¶

首次将 LLM 路由问题建模为考虑用户行为的 Stackelberg 博弈，所有结果有闭式解
揭示级联策略几乎无用的反直觉结论——静态单模型路由在多数情况最优
发现延迟节流激励机制：低流失惩罚下 Provider 可能故意降低服务质量
理论清晰、定理结构完整，为 LLM 定价和路由提供可操作的阈值规则

局限性 / 可改进方向¶

仅考虑两个模型和单用户的简化设置，未扩展到多模型/多用户竞争场景
假设成功概率 i.i.d.，未考虑多轮交互中用户反馈改善后续成功率
用户净值 \(V\) 和延迟 \(t_i\) 在实际中难以精确估计
未包含实证验证——全部为理论分析和仿真
假设用户完全知晓路由参数，实际中信息不对称更严重

与相关工作的对比¶

Chen et al. / Dekoninck et al.: 优化路由算法但不建模用户行为
Mahmood (2024): 单模型多轮交互的 cost-of-pass 分析，本文扩展到双模型路由
Shirali (2025): 研究交互式对齐的 Stackelberg 博弈，但关注用户信号而非路由

评分¶

新颖性: ⭐⭐⭐⭐ (博弈论视角分析 LLM 路由新颖)
实验充分度: ⭐⭐⭐ (纯理论，缺乏实证)
写作质量: ⭐⭐⭐⭐⭐ (定理清晰，图示直观)
价值: ⭐⭐⭐⭐ (对 LLM 路由实践有指导意义)