VL-RouterBench: A Benchmark for Vision-Language Model Routing¶

会议: CVPR 2026
arXiv: 2512.23562
代码: https://github.com/VL-RouterBench
领域: 多模态VLM
关键词: 模型路由, VLM, 基准测试, 效率-质量权衡, 多模型选择

一句话总结¶

提出VL-RouterBench，首个面向视觉-语言模型的系统性路由基准，涵盖14个数据集、17个候选模型和519,180个样本-模型对，评估10种路由方法，并发现当前最优路由器与理想Oracle之间仍存在显著差距。

研究背景与动机¶

领域现状：多模型路由已从工程优化发展为关键基础设施。不同VLM在推理成本和能力上差异显著，单一模型无法在所有请求类型上同时保证性能和效率。LLM领域的路由研究已趋成熟（RouterBench、RouterEval、RouterArena等），但VLM领域缺乏系统性基准。
现有痛点：VLM路由面临多重独特挑战：(a) 任务类型高度多样（VQA、视觉推理、图表OCR等），不同任务强调不同能力；(b) 多模态融合机制仍是开放问题，不同VLM在模态交互和语义表示上差异大；(c) 视觉语义密度和跨模态对齐等视觉模态特有问题。
核心矛盾：现有LLM路由基准专注文本路由，无法直接适配VLM场景——VLM路由的"什么是最优路由决策"更难在统一框架下定义。
本文要解决什么？ 构建VLM专用路由基准，提供统一的数据准备、训练和评估流程，推动VLM路由研究的可复现性和可比性。
切入角度：从VLM的原始推理和评分日志出发构建质量-成本矩阵，设计准确率-成本感知的软标签训练策略。
核心idea一句话：建立首个覆盖30,540样本×17模型的VLM路由基准，提供从数据到训练到评估的完整pipeline。

方法详解¶

整体框架¶

VL-RouterBench pipeline分三步：(1) 路由数据准备——从VLMEvalKit收集推理日志构建质量矩阵 $Y$ 和成本矩阵 $C$；(2) 路由器训练——使用准确率-成本感知的软标签策略，支持特征级和端到端两种架构；(3) 路由评估——用平均准确率、平均成本、吞吐量和综合Rank Score进行多维评估。

关键设计¶

质量-成本矩阵构建:
做什么：为每个样本-模型对建立正确性标签和推理成本
核心思路：采用规则化评估（选择题/答案匹配）确保一致性，成本公式 $C_{i,j} = n_{i,j}^{in} \cdot c_j^{in} + n_{i,j}^{out} \cdot c_j^{out}$，基于实际推理日志的token统计和公开价格表
设计动机：避免主观判断引入的偏差，确保评估公平可复现
准确率-成本感知软标签策略:
做什么：通过可调参数 $\lambda$ 显式控制训练时的准确率-成本权衡
核心思路：将路由训练建模为多目标优化，推导出解析软标签 $t_i^{(\lambda)}(j) = \frac{\mathbf{1}\{Y_{i,j}=1\} \cdot \exp(-\lambda \cdot C_{i,j})}{\sum_{j:Y_{i,j}=1} \exp(-\lambda \cdot C_{i,j})}$。$\lambda=0$ 时只关注准确率，$\lambda \to \infty$ 时强烈偏好低成本
设计动机：比硬标签更灵活，允许在正确模型间按成本分配概率质量
Rank Score综合评估:
做什么：将准确率和成本统一到单一可比分数
核心思路：对成本做对数归一化到[0,100]，然后用调和平均数综合准确率和归一化成本：$S(\beta) = \frac{(1+\beta)\cdot\bar{A}\cdot C_{norm}}{\beta\cdot\bar{A}+C_{norm}}$
设计动机：准确率和成本尺度不同，需要统一后才能做跨配置比较

路由器架构¶

特征级路由器：冻结的文本/视觉编码器提取嵌入后接轻量分类器（KNN/MLP/Linear等）
端到端路由器：如RouterDC、VLC等，直接从多模态输入预测模型选择

实验关键数据¶

主实验——路由方法对比¶

路由器	Avg. Acc.↑	Avg. Cost↓	Rank Score↑	排名
Oracle	95.60	$0.37	93.68	0
Strongest	78.01	$2.72	-	-
RouterDC (第1)	-	-	最高	1
VLC (第2)	-	-	-	2
MLP (第3)	-	-	-	3

消融实验——模态融合方式¶

融合方式	说明
仅文本特征	次优，缺少视觉判别信号
仅视觉特征	最弱，缺少任务指令信息
归一化拼接	最优，简单有效

关键发现¶

路由收益显著：在成本相当甚至更低时，学习型路由系统普遍比任何单一模型准确率更稳定
多模态特征有效：文本+视觉嵌入的简单归一化拼接就能支撑高竞争力路由器，始终优于单模态
与Oracle的差距：即使最优路由器仍距Oracle有明显差距，说明在视觉线索利用和文本结构建模上还有很大改进空间
模型数量覆盖：17个候选模型（1B到78B参数），参数范围跨越两个数量级

亮点与洞察¶

首个VLM路由基准：填补了VLM领域缺少统一路由评估的空白，pipeline设计完整（数据→训练→评估）且高度可扩展
软标签策略的数学优雅性：从Lagrange优化推导出解析软标签，理论上有保证，实践上通过一个 $\lambda$ 参数就能连续控制准确率-成本权衡
与Oracle差距的诊断价值：清晰指出改进方向在于"更细的视觉线索"和"文本结构建模"

局限性 / 可改进方向¶

仅考虑单图像输入，未覆盖多图像/视频VLM场景
正确性评估仅用规则匹配（选择题/答案匹配），排除了开放式生成任务
成本估算基于token数×价格表，未考虑实际延迟/吞吐量差异
路由器在推理时增加了额外的特征提取和分类开销，对于成本本身很低的模型可能得不偿失
未探讨路由器在分布外数据上的鲁棒性

评分¶

新颖性: ⭐⭐⭐⭐ 首个VLM路由基准，填补研究空白
实验充分度: ⭐⭐⭐⭐⭐ 14数据集×17模型×10路由方法，消融全面
写作质量: ⭐⭐⭐⭐ 体系完整，推导清楚
价值: ⭐⭐⭐⭐ 对VLM高效部署有直接实用价值