VL-RouterBench: A Benchmark for Vision-Language Model Routing¶
会议: CVPR 2026
arXiv: 2512.23562
代码: https://github.com/VL-RouterBench
领域: 多模态VLM
关键词: 模型路由, VLM, 基准测试, 效率-质量权衡, 多模型选择
一句话总结¶
提出VL-RouterBench,首个面向视觉-语言模型的系统性路由基准,涵盖14个数据集、17个候选模型和519,180个样本-模型对,评估10种路由方法,并发现当前最优路由器与理想Oracle之间仍存在显著差距。
研究背景与动机¶
- 领域现状:多模型路由已从工程优化发展为关键基础设施。不同VLM在推理成本和能力上差异显著,单一模型无法在所有请求类型上同时保证性能和效率。LLM领域的路由研究已趋成熟(RouterBench、RouterEval、RouterArena等),但VLM领域缺乏系统性基准。
- 现有痛点:VLM路由面临多重独特挑战:(a) 任务类型高度多样(VQA、视觉推理、图表OCR等),不同任务强调不同能力;(b) 多模态融合机制仍是开放问题,不同VLM在模态交互和语义表示上差异大;(c) 视觉语义密度和跨模态对齐等视觉模态特有问题。
- 核心矛盾:现有LLM路由基准专注文本路由,无法直接适配VLM场景——VLM路由的"什么是最优路由决策"更难在统一框架下定义。
- 本文要解决什么? 构建VLM专用路由基准,提供统一的数据准备、训练和评估流程,推动VLM路由研究的可复现性和可比性。
- 切入角度:从VLM的原始推理和评分日志出发构建质量-成本矩阵,设计准确率-成本感知的软标签训练策略。
- 核心idea一句话:建立首个覆盖30,540样本×17模型的VLM路由基准,提供从数据到训练到评估的完整pipeline。
方法详解¶
整体框架¶
VL-RouterBench pipeline分三步:(1) 路由数据准备——从VLMEvalKit收集推理日志构建质量矩阵 \(Y\) 和成本矩阵 \(C\);(2) 路由器训练——使用准确率-成本感知的软标签策略,支持特征级和端到端两种架构;(3) 路由评估——用平均准确率、平均成本、吞吐量和综合Rank Score进行多维评估。
关键设计¶
- 质量-成本矩阵构建:
- 做什么:为每个样本-模型对建立正确性标签和推理成本
- 核心思路:采用规则化评估(选择题/答案匹配)确保一致性,成本公式 \(C_{i,j} = n_{i,j}^{in} \cdot c_j^{in} + n_{i,j}^{out} \cdot c_j^{out}\),基于实际推理日志的token统计和公开价格表
-
设计动机:避免主观判断引入的偏差,确保评估公平可复现
-
准确率-成本感知软标签策略:
- 做什么:通过可调参数 \(\lambda\) 显式控制训练时的准确率-成本权衡
- 核心思路:将路由训练建模为多目标优化,推导出解析软标签 \(t_i^{(\lambda)}(j) = \frac{\mathbf{1}\{Y_{i,j}=1\} \cdot \exp(-\lambda \cdot C_{i,j})}{\sum_{j:Y_{i,j}=1} \exp(-\lambda \cdot C_{i,j})}\)。\(\lambda=0\) 时只关注准确率,\(\lambda \to \infty\) 时强烈偏好低成本
-
设计动机:比硬标签更灵活,允许在正确模型间按成本分配概率质量
-
Rank Score综合评估:
- 做什么:将准确率和成本统一到单一可比分数
- 核心思路:对成本做对数归一化到[0,100],然后用调和平均数综合准确率和归一化成本:\(S(\beta) = \frac{(1+\beta)\cdot\bar{A}\cdot C_{norm}}{\beta\cdot\bar{A}+C_{norm}}\)
- 设计动机:准确率和成本尺度不同,需要统一后才能做跨配置比较
路由器架构¶
- 特征级路由器:冻结的文本/视觉编码器提取嵌入后接轻量分类器(KNN/MLP/Linear等)
- 端到端路由器:如RouterDC、VLC等,直接从多模态输入预测模型选择
实验关键数据¶
主实验——路由方法对比¶
| 路由器 | Avg. Acc.↑ | Avg. Cost↓ | Rank Score↑ | 排名 |
|---|---|---|---|---|
| Oracle | 95.60 | $0.37 | 93.68 | 0 |
| Strongest | 78.01 | $2.72 | - | - |
| RouterDC (第1) | - | - | 最高 | 1 |
| VLC (第2) | - | - | - | 2 |
| MLP (第3) | - | - | - | 3 |
消融实验——模态融合方式¶
| 融合方式 | 说明 |
|---|---|
| 仅文本特征 | 次优,缺少视觉判别信号 |
| 仅视觉特征 | 最弱,缺少任务指令信息 |
| 归一化拼接 | 最优,简单有效 |
关键发现¶
- 路由收益显著:在成本相当甚至更低时,学习型路由系统普遍比任何单一模型准确率更稳定
- 多模态特征有效:文本+视觉嵌入的简单归一化拼接就能支撑高竞争力路由器,始终优于单模态
- 与Oracle的差距:即使最优路由器仍距Oracle有明显差距,说明在视觉线索利用和文本结构建模上还有很大改进空间
- 模型数量覆盖:17个候选模型(1B到78B参数),参数范围跨越两个数量级
亮点与洞察¶
- 首个VLM路由基准:填补了VLM领域缺少统一路由评估的空白,pipeline设计完整(数据→训练→评估)且高度可扩展
- 软标签策略的数学优雅性:从Lagrange优化推导出解析软标签,理论上有保证,实践上通过一个 \(\lambda\) 参数就能连续控制准确率-成本权衡
- 与Oracle差距的诊断价值:清晰指出改进方向在于"更细的视觉线索"和"文本结构建模"
局限性 / 可改进方向¶
- 仅考虑单图像输入,未覆盖多图像/视频VLM场景
- 正确性评估仅用规则匹配(选择题/答案匹配),排除了开放式生成任务
- 成本估算基于token数×价格表,未考虑实际延迟/吞吐量差异
- 路由器在推理时增加了额外的特征提取和分类开销,对于成本本身很低的模型可能得不偿失
- 未探讨路由器在分布外数据上的鲁棒性
相关工作与启发¶
- vs RouterBench/RouterEval:这些针对LLM文本路由,VL-RouterBench是首个面向VLM的基准,增加了视觉模态和跨模态融合的评估
- vs RouterArena:RouterArena覆盖多维指标和自动排行榜,VL-RouterBench借鉴其Rank Score设计但扩展到多模态场景
- GPT-5内置路由:工业界已将路由作为统一接口特性,说明路由研究的实际价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个VLM路由基准,填补研究空白
- 实验充分度: ⭐⭐⭐⭐⭐ 14数据集×17模型×10路由方法,消融全面
- 写作质量: ⭐⭐⭐⭐ 体系完整,推导清楚
- 价值: ⭐⭐⭐⭐ 对VLM高效部署有直接实用价值