ICL-Router: In-Context Learned Model Representations for LLM Routing¶

会议: AAAI 2026
arXiv: 2510.09719
代码: GitHub
领域: LLM路由 / 模型选择
关键词: 模型路由, in-context向量, 能力画像, 可扩展性, LLM协作

一句话总结¶

提出 ICL-Router，通过两阶段训练（查询重建 + ICL模型路由）将 LLM 的能力画像编码为 in-context 向量，实现可扩展的动态模型路由——新增模型无需重训路由器，在分布内和分布外任务上均达到 SOTA。

研究背景与动机¶

领域现状：不同 LLM 在不同任务上各有所长（如 DeepSeek 擅长推理、Qwen 擅长代码），模型路由通过动态将查询分配给最合适的模型来最大化整体性能。这已成为多模型协作的重要研究方向。
现有痛点：
RouterDC：用双对比学习训练查询和模型嵌入，但假设模型池固定，新增模型需重训路由器
EmbedLLM：用编码器-解码器框架训练路由器，同样需要重训来适应新模型
MODEL-SAT：用手工设计的"能力指令"描述模型，虽免于重训，但需要人工为每个 benchmark 设计指令且依赖先验知识
核心问题：模型表示过于简单（固定嵌入或手工描述），且缺乏可扩展性
核心矛盾：LLM 发布频率极高，路由方法必须能低成本地融入新模型；但准确的模型能力表示又需要大规模评估，两者之间存在效率-准确性矛盾。
本文要解决什么：如何构建一个无需重训路由器即可融入新模型的可扩展路由框架？
切入角度：将模型的能力画像表示为 in-context 向量——一个模型在多种查询上的表现（对/错）可作为 in-context 示例，浓缩为紧凑的向量输入路由器，而非为每个模型训练专门的嵌入。
核心 idea：两阶段训练——先训练投影器和路由器理解查询的向量表示（通过重建任务对齐语义空间），再用各模型在查询集上的表现（query向量 + 对/错标签）作为 in-context 向量训练路由器预测模型匹配性。新模型只需在小查询集上评估即可得到能力画像。

方法详解¶

整体框架¶

ICL-Router 由三个组件构成： 1. 嵌入模型 \(f_{emb}\)：将查询编码为嵌入向量 2. 投影器 \(f_{proj}\)：对齐嵌入维度与路由器输入维度 3. LLM 路由器：接收查询向量和模型能力画像向量，预测最佳模型

训练分两阶段：查询重建（对齐语义空间）→ ICL模型路由（学习路由决策）

关键设计¶

模块一：查询重建训练（Stage 1）

做什么：给定查询 \(q_n\)，通过嵌入模型和投影器得到向量 \(v_n\)，训练路由器从 \(v_n\) 重建原始查询文本
核心思路：
\(e_n = f_{emb}(q_n) \in \mathbb{R}^{d_{Emb}}\)
\(v_n = f_{proj}(e_n) \in \mathbb{R}^{d_{Router}}\)
路由器自回归重建：最小化 \(\mathcal{L}_{rec} = -\frac{1}{NT_n}\sum_{n}\sum_{t}\log P(q_n^{(t)}|q_n^{(<t)}, v_n)\)
设计动机：重建任务迫使投影器输出的向量保留完整的查询语义信息，同时迫使路由器学会"解读"这些向量。这是下游路由任务的基础——如果路由器无法理解查询的含义，就无法做出准确的路由决策

模块二：ICL 模型路由训练（Stage 2）

做什么：为每个候选 LLM \(\mathcal{M}_t\) 构建能力画像 \(\mathbf{P}_t = ((v_1,c_1), ..., (v_K,c_K))\)，其中 \(v_k\) 是查询向量、\(c_k\) 是该模型答对与否（'Yes'/'No'），训练路由器据此预测新查询的匹配度
核心思路：
查询集 \(\mathscr{Q}\) 由高难度查询组成（仅少数 LLM 能答对的题目），以最大化区分度
联合训练投影器和路由器，交叉熵损失：\(\mathcal{L}_{ce} = -\frac{1}{TN}\sum_t\sum_n \log P(y_{t,n}|(\mathbf{P}_t, q_n))\)
能力画像以 in-context 向量形式输入路由器（而非上千条原始查询文本），大幅压缩上下文长度
设计动机：
传统方法为每个模型学习一个固定嵌入，新增模型就要重训；而 ICL 方式只需在查询集上评估新模型即可得到可即插即用的能力画像
高难度查询集的选取确保能力画像具有足够的区分度——如果所有模型都能答对，则该查询没有路由价值

模块三：推理与新模型融入

做什么：推理时，路由器对每个候选模型输出"能正确回答"的概率，选概率最高的
核心思路：\(\mathcal{M}^* = \arg\max_t p(\text{'Yes'}|\mathcal{M}_t, q')\)
新模型融入：只需在查询集 \(\mathscr{Q}\) 上评估新模型 \(\mathcal{M}_{T+1}\)，得到 \(\mathbf{P}_{T+1}\)，直接输入路由器即可，零重训
设计动机：能力画像与路由器解耦——路由器学的是"如何根据能力画像做决策"，而非"特定模型的嵌入"

损失函数 / 训练策略¶

Stage 1：自回归重建损失 \(\mathcal{L}_{rec}\)
Stage 2：标准交叉熵 \(\mathcal{L}_{ce}\)
两阶段联合训练投影器参数 \(\theta_{proj}\) 和路由器参数 \(\theta_{router}\)

实验关键数据¶

主实验¶

8 个候选 LLM（7-9B 规模），5 个分布内 + 5 个分布外 benchmark：

分布内任务（ID）：

方法	OlympiadBench	BBH	LogicBench	MMLUPro	MBPP	Avg
最佳单模型	74.26	75.62	78.03	58.84	79.21	73.19
RouterDC	73.56	73.49	77.24	58.20	79.11	72.32
EmbedLLM	71.45	79.02	78.92	64.06	77.34	74.16
MODEL-SAT	73.02	71.14	74.80	63.61	76.00	71.71
ICL-Router	74.16	80.52	79.03	67.53	80.53	76.30

ICL-Router 平均 76.30，超越最佳单模型 3.11 分，超越 EmbedLLM 2.14 分，超越 RouterDC 3.98 分。

分布外任务（OOD）：ICL-Router 同样达到 SOTA，展现出强泛化性。

消融实验¶

查询重建阶段的必要性：去掉 Stage 1 → 路由器无法理解向量语义 → 性能大幅下降
In-context 示例数量；随着查询集 \(|\mathscr{Q}|\) 增大，性能稳步提升并趋于收敛
模型可扩展性：随着候选模型池增大，ICL-Router 性能持续提升，而 MODEL-SAT 提升放缓（Figures 2-3）

关键发现¶

即使在较小的候选模型池中（8 个 7-9B 模型），路由器已能超越任何单一模型 7.2 分
高难度查询集的选取对路由质量至关重要——容易的查询缺乏区分度
In-context 向量表示比固定嵌入和手工指令都更有效
OOD 泛化能力强：用 ID benchmark 训练的路由器在未见 benchmark 上仍能做出合理路由

亮点与洞察¶

可扩展性是最大亮点：新模型零重训融入，这在 LLM 快速迭代的今天非常实用
两阶段训练的设计优雅：查询重建确保语义空间对齐，ICL 路由利用对齐后的向量做能力匹配
In-context 向量的概念借鉴了 ICL 的核心思想（学而不训），将其应用于模型表示是新颖的视角
高难度查询集选择策略——只保留"仅少数模型能答对"的查询作为能力画像依据，最大化信息量

局限性 / 可改进方向¶

查询集 \(\mathscr{Q}\) 的选择和规模对性能影响大，但如何最优地选择查询集未深入探讨
候选模型仅覆盖 7-9B 规模，更大模型（70B+）或跨规模路由的效果未知
路由器本身是一个 LLM，推理成本非零；在延迟敏感场景中可能成为瓶颈
能力画像是静态的（在固定查询集上评估一次），如果模型经过后续微调则需重新评估
可探索多标准路由（兼顾性能、延迟、成本）

评分¶

⭐⭐⭐⭐ (4/5)

理由：方法设计清晰（两阶段训练 + in-context 能力画像），可扩展性解决了实际痛点，实验全面（10 个 benchmark，ID/OOD 均覆盖）。扣一分因为查询集选择策略未深入分析，且路由器自身的推理开销未充分讨论。