RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs¶

会议: ICLR 2026
arXiv: 2509.25426
代码: 无
领域: 其他
关键词: 推理语言模型, 模型路由, 项目反应理论, 多目标优化, 自适应推理

一句话总结¶

本文提出 Radar 框架，将推理语言模型（RLM）的自适应推理问题建模为多目标优化，利用项目反应理论（IRT）联合估计可解释的查询难度和模型配置能力参数，实现轻量级、可扩展的查询级路由，在 8 个推理基准上优于 SOTA 路由方法，且仅增加约 7ms 延迟。

研究背景与动机¶

近年来推理语言模型（RLMs）如 DeepSeek-R1、o4-mini、Qwen3 等展示了在数学、科学和编程等挑战性任务上的卓越能力。选择合适的 RLM 涉及性能-成本权衡的两个关键层面：(1) 模型大小——更大的模型性能更好但成本更高；(2) 推理预算——更多的思考 token 提升性能但增加延迟和费用。

关键发现：MATH-500 上超过 50% 的查询可以用 Qwen3-0.6B 以极少推理预算正确解答，而一些困难查询则需要更强的 RLM 配置。更强的 RLM 还可能在简单问题上"过度思考"（overthinking）反而降低性能。这激发了一个核心问题：如何为每个查询选择恰好"足够强"的 RLM 配置，从而在不牺牲性能的前提下最大化成本效益？

方法详解¶

整体框架¶

Radar 框架包含以下核心组件： 1. 离散化技巧：将每个 RLM 按可用推理预算离散化为多个配置 $g = (m, u) \in \mathcal{G}$ 2. 多目标优化（MOO）：将路由形式化为最大化性能、最小化成本的双目标优化 3. IRT 校准：使用 2PL IRT 模型联合估计查询难度和配置能力 4. 自适应测试：通过少量动态选择的查询快速估计新模型配置的能力

关键设计¶

离散化与配置路由: 将每个 RLM $m \in \mathcal{M}$ 按推理预算 $u \in \mathcal{U}_m$ 离散化为配置 $g = (m, u)$。对开源 RLM，通过计数思考 token 并在超出预算时附加中断消息来强制执行预算。设计动机：统一模型选择和预算选择为单一配置路由问题，使得可以在配置空间上进行优化。
多目标优化路由: 对每个查询 $q$，求解 $g^* = \arg\max_{g \in \mathcal{G}} f(p_q(g), c_q(g))$，其中 $p_q(g)$ 是性能预测函数，$c_q(g)$ 是成本预测函数。本文探索两种标量化技术：
- 线性标量化: $\text{LSP}_q^{w_1} = \arg\max_{g \in \mathcal{G}} w_1 p_q(g) - (1-w_1) c_q(g)$
- 切比雪夫标量化: $\text{CSP}_q^{w_1} = \arg\min_{g \in \mathcal{G}} \max\{w_1|1-p_q(g)|, (1-w_1)c_q(g)\}$ 设计动机：切比雪夫标量化可以发现 Pareto 前沿的非凸部分，而线性标量化仅能覆盖凸部分。这是首次在 LLM 路由中引入线性标量化之外的 MOO 技术。
2PL IRT 模型: 使用二参数逻辑斯蒂模型参数化性能预测函数。为实现 OOD 泛化，将查询难度 $b_j = \mathbf{w}_b^\top \mathbf{e}_j$ 和区分度 $a_j = \mathbf{w}_a^\top \mathbf{e}_j$ 参数化为查询嵌入 $\mathbf{e}_j$ 的线性变换，每个配置 $g_i$ 有标量能力参数 $\theta_i$。正确回答概率为 $p_{ij} = \sigma(a_j(\theta_i - b_j))$。设计动机：标量能力值可捕获模型配置间的可解释排序，参数量少于多维 IRT（MIRT），且通过嵌入泛化到未见查询。
自适应测试扩展: 为新模型配置估计能力参数时，迭代选择 Fisher 信息最大的查询进行评估：$j_t = \arg\max_{j \in \mathcal{Q} \setminus \mathcal{S}_{t-1}} I(\hat{\theta}_{t-1}, a_j, b_j)$，其中 $I(\theta, a_j, b_j) = a_j^2 \sigma(a_j(\theta-b_j))[1-\sigma(a_j(\theta-b_j))]$。设计动机：仅需评估约 12% 的训练集即可准确估计新配置能力，实现即插即用。

损失函数 / 训练策略¶

训练 IRT 模型使用二元交叉熵损失： $$\mathcal{L}_{2PL} = -\frac{1}{nk} \sum_{i=1}^n \sum_{j=1}^k [y_{ij} \log p_{ij} + (1-y_{ij}) \log(1-p_{ij})]$$

其中 $y_{ij} \in \{0,1\}$ 表示配置 $g_i$ 在查询 $q_j$ 上是否正确。总共收集了 175 万条二值响应数据，覆盖 35 个配置和 50,139 个查询。

实验关键数据¶

主实验（ID 设置，Hypervolume 指标，越高越好）¶

基准数据集	Random-Pair	RouterBench	IRT-Router	Radar (本文)	改进
GPQA-Diamond	0.5545	0.6866	0.6942	0.7513	+8% vs 次优
MMLU	0.6905	0.8592	0.8604	0.8720	+1.3%
MMLU-Redux	0.7281	0.9053	0.9117	0.9230	+1.2%
LSAT	0.6913	0.9125	0.9163	0.9188	+0.3%
FRAMES	0.6589	0.8325	0.8501	0.8762	+3.1%

消融实验¶

配置	Hypervolume	说明
线性标量化 (ID)	略优	ID 场景下边际领先
切比雪夫标量化 (OOD)	更优	OOD 场景下优势明显
20% 训练数据	~相当	仅用 20% 数据即可达到相似性能
Radar (35 配置)	基线	原始 35 个配置
Radar++ (43 配置)	提升	通过自适应测试加入 Qwen3-14B 后提升

关键发现¶

在 MATH-500 上，Radar 可以仅用 o4-mini（高预算）1.31% 的成本达到其 90% 的性能
在 FRAMES（长文本多文档 QA）上，Radar 以 10% 的成本达到 90% 性能，次优方法需要 30% 成本
Radar 的路由延迟仅约 7ms，相比最小 RLM 配置约 870ms 的生成时间可忽略不计
自适应测试仅需 12% 的训练集（5k 查询）即可准确估计新配置能力
估计的查询难度与 MATH-500 的 5 级人工标注难度呈中等 Pearson 相关（0.509）

亮点与洞察¶

首次将 MOO（超越线性标量化）引入 LLM 路由：切比雪夫标量化能发现 Pareto 前沿的非凸部分
心理测量学启发的 IRT 模型：将查询类比为考试题目、模型配置类比为考生，自然且可解释
极端成本节约：在 MATH-500 上 1.31% 成本达到 90% 性能的结果令人印象深刻
即插即用设计：无需微调 RLM，黑盒使用，新模型快速接入
强 OOD 泛化：在长文本多文档 QA 上的泛化能力尤为突出

局限与展望¶

成本预测使用简单启发式（平均 token 数 × 单价），未考虑查询特异的成本差异
在 AIME 等高难度 OOD 基准上泛化能力稍弱，倾向于分配能力偏低的配置
仅处理文本模态，多模态推理场景有待扩展
2PL IRT 的线性参数化可能不足以捕获复杂的难度-能力交互关系
未考虑批量查询下的总预算约束场景

评分¶

新颖性: ⭐⭐⭐⭐ IRT + MOO 的组合新颖，但单个组件（IRT、路由）不算全新
实验充分度: ⭐⭐⭐⭐⭐ 8 个基准、35 个配置、175 万条数据，全面且严谨
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，公式推导完整，图表直观
价值: ⭐⭐⭐⭐⭐ 直接面向 RLM 实际部署的核心问题，节约成本效果显著