IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory¶
会议: ACL 2025
arXiv: 2506.01048
代码: https://github.com/Mercidaiha/IRT-Router
领域: LLM/NLP
关键词: LLM routing, item response theory, multi-model selection, interpretability, cost optimization
一句话总结¶
IRT-Router 借鉴心理测量学的项目反应理论(IRT),将 LLM 视为"考生"、query 视为"考题",学习多维能力向量和难度/区分度参数实现可解释的多 LLM 路由,在 OOD 场景下达 87%+ 准确率且成本仅为 GPT-4o 的 1/30。
研究背景与动机¶
- 领域现状:使用多个 LLM 时需要根据 query 特点自动选择最合适的模型,平衡性能和成本
- 现有痛点:现有路由方法(RouteLLM、RouterBench)用简单启发式或黑箱分类器,缺乏可解释性,无法说明"为什么路由到这个模型"
- 核心矛盾:需要同时解决可解释性、cold-start(新 query 如何路由)、性能-成本权衡三个问题
- 核心idea一句话:IRT 天然建模"能力-难度"关系,将其迁移到 LLM 路由可同时获得可解释性和效果
方法详解¶
整体框架¶
两个实现版本:(1) MIRT-Router(多维IRT):\(\hat{P}(q_i, M_j) = 1/(1 + \exp(-a_i^T \theta_{M_j} + b_i))\),\(\theta_{M_j}\) 为 LLM 能力向量,\(a_i\) 为区分度,\(b_i\) 为难度;(2) NIRT-Router(神经IRT):引入 relevance vector 和神经网络交互函数。
关键设计¶
- IRT 建模:每个 LLM 有多维能力向量 \(\theta_{M_j}\),每个 query 有难度 \(b_i\) 和区分度 \(a_i\),参数通过 embedding + 线性变换学习
- Cold-start Warm-up:对未见 query,用邻近已知 query 的嵌入插值:\(e_{q_i}' = (1-\lambda) e_{q_i} + \lambda \cdot \text{mean(neighbors)}\),\(\lambda=0.3\text{-}0.4\) 最优
- 评分函数:\(S(q_i, M_j) = \alpha \hat{P}(q_i, M_j) - \beta C(M_j)\),\(\alpha+\beta=1\) 平衡性能和成本
实验关键数据¶
主实验¶
| 方法 | 准确率 | 成本 | Reward |
|---|---|---|---|
| MIRT-Router | 80.67% | $0.42 | 63.89 |
| RouterBench | 80.01% | $1.15 | 62.23 |
| RouteLLM | 77.25% | $12.80 | 42.00 |
| GPT-4o only | 77.53% | $12.93 | 42.02 |
OOD 场景(20 个候选 LLM,12 个数据集)¶
| 方法 | 准确率 | 成本 |
|---|---|---|
| MIRT-Router | 87.12% | $0.14 |
| NIRT-Router | 87.37% | $0.15 |
关键发现¶
- 性能-成本最优:准确率接近最强单模型,成本仅 1/30
- 可解释性:能力向量和难度分数有明确语义(DeepSeek-Chat 能力最强=81%,GPT-4o=78%)
- Cold-start 有效:warm-up 机制显著提升 OOD 表现
亮点与洞察¶
- IRT→LLM 路由的跨领域迁移很优雅:心理测量学的成熟理论直接适用于 LLM 能力评估
- 可解释性是核心卖点:不仅路由效果好,还能解释每个 LLM 擅长什么、每个 query 难在哪里
局限性 / 可改进方向¶
- Top-1 路由准确率较低(2-3%),因为多个模型能力相似
- 对全新 LLM(训练时未见过的模型)泛化有限
- 路由器对成本参数变化不够敏感
评分¶
- 新颖性: ⭐⭐⭐⭐ IRT 用于 LLM 路由是巧妙的跨领域迁移
- 实验充分度: ⭐⭐⭐⭐⭐ 20 个 LLM × 12 个数据集 × ID+OOD 场景
- 写作质量: ⭐⭐⭐⭐ IRT 理论介绍清晰,可解释性分析充分
- 价值: ⭐⭐⭐⭐⭐ 对多 LLM 部署场景有直接实用价值