ICL-Router: In-Context Learned Model Representations for LLM Routing¶
会议: AAAI 2026
arXiv: 2510.09719
代码: GitHub
领域: LLM路由 / 模型选择
关键词: 模型路由, in-context向量, 能力画像, 可扩展性, LLM协作
一句话总结¶
提出 ICL-Router,通过两阶段训练(查询重建 + ICL模型路由)将 LLM 的能力画像编码为 in-context 向量,实现可扩展的动态模型路由——新增模型无需重训路由器,在分布内和分布外任务上均达到 SOTA。
研究背景与动机¶
-
领域现状:不同 LLM 在不同任务上各有所长(如 DeepSeek 擅长推理、Qwen 擅长代码),模型路由通过动态将查询分配给最合适的模型来最大化整体性能。这已成为多模型协作的重要研究方向。
-
现有痛点:
- RouterDC:用双对比学习训练查询和模型嵌入,但假设模型池固定,新增模型需重训路由器
- EmbedLLM:用编码器-解码器框架训练路由器,同样需要重训来适应新模型
- MODEL-SAT:用手工设计的"能力指令"描述模型,虽免于重训,但需要人工为每个 benchmark 设计指令且依赖先验知识
-
核心问题:模型表示过于简单(固定嵌入或手工描述),且缺乏可扩展性
-
核心矛盾:LLM 发布频率极高,路由方法必须能低成本地融入新模型;但准确的模型能力表示又需要大规模评估,两者之间存在效率-准确性矛盾。
-
本文要解决什么:如何构建一个无需重训路由器即可融入新模型的可扩展路由框架?
-
切入角度:将模型的能力画像表示为 in-context 向量——一个模型在多种查询上的表现(对/错)可作为 in-context 示例,浓缩为紧凑的向量输入路由器,而非为每个模型训练专门的嵌入。
-
核心 idea:两阶段训练——先训练投影器和路由器理解查询的向量表示(通过重建任务对齐语义空间),再用各模型在查询集上的表现(query向量 + 对/错标签)作为 in-context 向量训练路由器预测模型匹配性。新模型只需在小查询集上评估即可得到能力画像。
方法详解¶
整体框架¶
ICL-Router 由三个组件构成: 1. 嵌入模型 \(f_{emb}\):将查询编码为嵌入向量 2. 投影器 \(f_{proj}\):对齐嵌入维度与路由器输入维度 3. LLM 路由器:接收查询向量和模型能力画像向量,预测最佳模型
训练分两阶段:查询重建(对齐语义空间)→ ICL模型路由(学习路由决策)
关键设计¶
模块一:查询重建训练(Stage 1)
- 做什么:给定查询 \(q_n\),通过嵌入模型和投影器得到向量 \(v_n\),训练路由器从 \(v_n\) 重建原始查询文本
- 核心思路:
- \(e_n = f_{emb}(q_n) \in \mathbb{R}^{d_{Emb}}\)
- \(v_n = f_{proj}(e_n) \in \mathbb{R}^{d_{Router}}\)
- 路由器自回归重建:最小化 \(\mathcal{L}_{rec} = -\frac{1}{NT_n}\sum_{n}\sum_{t}\log P(q_n^{(t)}|q_n^{(<t)}, v_n)\)
- 设计动机:重建任务迫使投影器输出的向量保留完整的查询语义信息,同时迫使路由器学会"解读"这些向量。这是下游路由任务的基础——如果路由器无法理解查询的含义,就无法做出准确的路由决策
模块二:ICL 模型路由训练(Stage 2)
- 做什么:为每个候选 LLM \(\mathcal{M}_t\) 构建能力画像 \(\mathbf{P}_t = ((v_1,c_1), ..., (v_K,c_K))\),其中 \(v_k\) 是查询向量、\(c_k\) 是该模型答对与否('Yes'/'No'),训练路由器据此预测新查询的匹配度
- 核心思路:
- 查询集 \(\mathscr{Q}\) 由高难度查询组成(仅少数 LLM 能答对的题目),以最大化区分度
- 联合训练投影器和路由器,交叉熵损失:\(\mathcal{L}_{ce} = -\frac{1}{TN}\sum_t\sum_n \log P(y_{t,n}|(\mathbf{P}_t, q_n))\)
- 能力画像以 in-context 向量形式输入路由器(而非上千条原始查询文本),大幅压缩上下文长度
- 设计动机:
- 传统方法为每个模型学习一个固定嵌入,新增模型就要重训;而 ICL 方式只需在查询集上评估新模型即可得到可即插即用的能力画像
- 高难度查询集的选取确保能力画像具有足够的区分度——如果所有模型都能答对,则该查询没有路由价值
模块三:推理与新模型融入
- 做什么:推理时,路由器对每个候选模型输出"能正确回答"的概率,选概率最高的
- 核心思路:\(\mathcal{M}^* = \arg\max_t p(\text{'Yes'}|\mathcal{M}_t, q')\)
- 新模型融入:只需在查询集 \(\mathscr{Q}\) 上评估新模型 \(\mathcal{M}_{T+1}\),得到 \(\mathbf{P}_{T+1}\),直接输入路由器即可,零重训
- 设计动机:能力画像与路由器解耦——路由器学的是"如何根据能力画像做决策",而非"特定模型的嵌入"
损失函数 / 训练策略¶
- Stage 1:自回归重建损失 \(\mathcal{L}_{rec}\)
- Stage 2:标准交叉熵 \(\mathcal{L}_{ce}\)
- 两阶段联合训练投影器参数 \(\theta_{proj}\) 和路由器参数 \(\theta_{router}\)
实验关键数据¶
主实验¶
8 个候选 LLM(7-9B 规模),5 个分布内 + 5 个分布外 benchmark:
分布内任务(ID):
| 方法 | OlympiadBench | BBH | LogicBench | MMLUPro | MBPP | Avg |
|---|---|---|---|---|---|---|
| 最佳单模型 | 74.26 | 75.62 | 78.03 | 58.84 | 79.21 | 73.19 |
| RouterDC | 73.56 | 73.49 | 77.24 | 58.20 | 79.11 | 72.32 |
| EmbedLLM | 71.45 | 79.02 | 78.92 | 64.06 | 77.34 | 74.16 |
| MODEL-SAT | 73.02 | 71.14 | 74.80 | 63.61 | 76.00 | 71.71 |
| ICL-Router | 74.16 | 80.52 | 79.03 | 67.53 | 80.53 | 76.30 |
ICL-Router 平均 76.30,超越最佳单模型 3.11 分,超越 EmbedLLM 2.14 分,超越 RouterDC 3.98 分。
分布外任务(OOD):ICL-Router 同样达到 SOTA,展现出强泛化性。
消融实验¶
- 查询重建阶段的必要性:去掉 Stage 1 → 路由器无法理解向量语义 → 性能大幅下降
- In-context 示例数量;随着查询集 \(|\mathscr{Q}|\) 增大,性能稳步提升并趋于收敛
- 模型可扩展性:随着候选模型池增大,ICL-Router 性能持续提升,而 MODEL-SAT 提升放缓(Figures 2-3)
关键发现¶
- 即使在较小的候选模型池中(8 个 7-9B 模型),路由器已能超越任何单一模型 7.2 分
- 高难度查询集的选取对路由质量至关重要——容易的查询缺乏区分度
- In-context 向量表示比固定嵌入和手工指令都更有效
- OOD 泛化能力强:用 ID benchmark 训练的路由器在未见 benchmark 上仍能做出合理路由
亮点与洞察¶
- 可扩展性是最大亮点:新模型零重训融入,这在 LLM 快速迭代的今天非常实用
- 两阶段训练的设计优雅:查询重建确保语义空间对齐,ICL 路由利用对齐后的向量做能力匹配
- In-context 向量的概念借鉴了 ICL 的核心思想(学而不训),将其应用于模型表示是新颖的视角
- 高难度查询集选择策略——只保留"仅少数模型能答对"的查询作为能力画像依据,最大化信息量
局限性 / 可改进方向¶
- 查询集 \(\mathscr{Q}\) 的选择和规模对性能影响大,但如何最优地选择查询集未深入探讨
- 候选模型仅覆盖 7-9B 规模,更大模型(70B+)或跨规模路由的效果未知
- 路由器本身是一个 LLM,推理成本非零;在延迟敏感场景中可能成为瓶颈
- 能力画像是静态的(在固定查询集上评估一次),如果模型经过后续微调则需重新评估
- 可探索多标准路由(兼顾性能、延迟、成本)
相关工作与启发¶
- RouterDC:双对比学习路由,但模型池固定
- EmbedLLM:编码器-解码器路由,同样不可扩展
- MODEL-SAT:基于手工能力指令的路由,可扩展但需人工设计
- Vector-ICL(Zhuang 2024):in-context 向量的概念来源,将连续数据投射到 LLM embedding 空间
- GraphRouter:关注性能与计算成本的平衡,与本文关注的纯性能最大化互补
评分¶
⭐⭐⭐⭐ (4/5)
理由:方法设计清晰(两阶段训练 + in-context 能力画像),可扩展性解决了实际痛点,实验全面(10 个 benchmark,ID/OOD 均覆盖)。扣一分因为查询集选择策略未深入分析,且路由器自身的推理开销未充分讨论。