AVR: Adaptive VLM Routing for Computer Use Agents¶

会议: CVPR 2026
arXiv: 2603.12823
代码: vllm-project/semantic-router
领域: 多模态VLM
关键词: Computer Use Agent, VLM路由, 自适应推理, 成本优化, GUI grounding

一句话总结¶

提出 AVR 自适应路由框架，通过轻量多模态嵌入模型评估动作难度 + 小模型 logprob 置信度探测 + warm agent 记忆注入，实现三层路由（简单→小模型，困难→大模型，高风险→大模型+guardrail），在推理成本降低 78% 的同时仅损失 2pp 准确率。

研究背景与动机¶

CUA 的兴起与瓶颈：Computer Use Agents（CUA）通过 VLM 直接操作 GUI 执行复杂任务（点击、输入、滑动等），是当前 Agent 领域最热门的方向之一。但现有 CUA 系统（如 OpenAI CUA、Claude Computer Use）采用单一大型 VLM 处理所有操作，每次动作都需要调用 GPT-4o 或 Claude 级别的模型，API 成本极高——一个 50 步的任务可能花费数美元。
动作难度的巨大差异：CUA 任务中的动作复杂度高度不均匀。简单动作（如点击显眼的按钮、在文本框中输入已知内容）占据了大量操作，完全不需要顶级 VLM 的推理能力；而复杂动作（如在密集 UI 中定位小图标、理解上下文做多步推理）则确实需要强模型。这种"杀鸡用牛刀"的现象造成了严重的资源浪费。
现有路由方案的局限：文本领域的 LLM 路由（如 RouterBench、RouteLLM）已有一些探索，但直接迁移到 CUA 面临挑战：(a) GUI 操作涉及视觉复杂度（屏幕布局、元素密度）和语义复杂度（指令歧义度），纯文本特征不够；(b) CUA 的动作是序列化的，上下文累积效应（之前做了什么）显著影响当前动作难度；(c) 错误的路由决策在 CUA 中代价更高——一次误点可能导致整个任务失败。
模型大小 ≠ grounding 准确率：作者的关键发现是，在 GUI grounding 任务上，模型大小与准确率并不完全正相关。在 ScreenSpot-Pro 上，GPT-4o 仅获得 0.8% 的准确率（可能因为其视觉编码器对 GUI 元素的理解不佳），而开源 7B 的 OS-Atlas 达到 18.9%，Qwen2.5-VL-72B 达到 43.6%。这意味着路由不能简单地按模型大小分层，需要考虑模型在 GUI 领域的实际能力。
记忆的不对称效果：作者观察到，将之前成功动作的经验（warm agent memory）注入模型时，对小模型的提升远大于大模型。小模型从 0.83 提升到 0.96 的任务成功率，而大模型只有边际改善。这为路由策略提供了关键洞察：通过记忆注入，小模型的"能力天花板"可以被显著抬高。

方法详解¶

整体框架¶

AVR 框架包含三个核心组件，组成一个级联的路由管线：

输入(截图+指令) → [难度评估器] → 简单? → 小VLM执行
                                    ↓ 非简单
                              [置信度探测器] → 小VLM有信心? → 小VLM执行
                                                    ↓ 无信心
                                              [记忆注入] → 注入后有信心? → 小VLM执行
                                                               ↓ 仍无信心
                                                         大VLM执行 (+guardrail如高风险)

三层路由策略： - Layer 1：轻量难度评估器快速过滤明显简单的动作（约 40-50% 的操作） - Layer 2：小 VLM 实际尝试生成动作，通过 logprob 分析置信度，高置信直接执行 - Layer 3：记忆注入后再次探测，仍不确信则升级到大模型；高风险操作（如删除、支付）附加 guardrail 验证

关键设计 1：多模态难度评估器（Difficulty Assessor）¶

基于 120M 参数的多模态嵌入模型（类似 SigLIP-small 架构），输入为当前屏幕截图 + 当前指令文本，输出一个标量难度分数 $d \in [0, 1]$。

难度分数综合两个维度： - 视觉复杂度：UI 元素密度、目标元素的视觉显著性、屏幕布局复杂度 - 语义复杂度：指令的歧义度、需要的推理步数、是否涉及上下文理解

训练数据通过在 ScreenSpot-Pro 和 OpenClaw 上收集不同模型（7B/14B/72B）的成功/失败记录构建：如果小模型能成功完成的动作标记为"简单"，只有大模型能完成的标记为"困难"。

评估器的推理开销极低（~2ms/帧），远低于任何 VLM 的推理时间，因此不会成为管线的瓶颈。

关键设计 2：Logprob 置信度探测（Confidence Probing）¶

对于未被难度评估器直接分流的动作，让小 VLM（如 Qwen2.5-VL-7B）实际执行一次推理，生成动作序列 $a = (a_1, a_2, ..., a_n)$，并收集每个 token 的 log probability。

置信度指标定义为：

\[C(a) = \exp\left(\frac{1}{n}\sum_{i=1}^{n} \log p(a_i | a_{<i}, s)\right)\]

其中 $s$ 为当前状态（截图+历史）。直觉上，这是模型输出 token 的几何平均概率。

关键阈值设计： - $C(a) > \theta_{\text{high}}$：高置信，直接执行小模型的动作 - $\theta_{\text{low}} < C(a) \leq \theta_{\text{high}}$：中等置信，进入记忆注入阶段 - $C(a) \leq \theta_{\text{low}}$：低置信，直接升级到大模型

$\theta_{\text{high}} = 0.85$, $\theta_{\text{low}} = 0.60$，通过验证集上的 F1 分数网格搜索确定。

关键设计 3：Warm Agent 记忆注入（Memory Injection）¶

记忆模块维护一个动态更新的经验库 $\mathcal{M} = \{(s_j, a_j, r_j)\}$，记录之前成功执行的 (状态, 动作, 奖励) 三元组。

记忆注入流程： 1. 检索：用当前截图和指令的嵌入，从 $\mathcal{M}$ 中检索最相似的 top-$k$（$k=3$）成功经验 2. 格式化：将检索到的经验以 few-shot 示例的形式注入小 VLM 的 prompt 3. 重新推理：小 VLM 在记忆增强的 prompt 下重新生成动作，再次检查置信度

记忆注入的效果高度不对称： - 小模型（7B）：任务成功率从 0.83 → 0.96（+13pp） - 大模型（72B）：任务成功率从 0.94 → 0.95（+1pp）

这验证了一个核心假设：小模型的主要瓶颈不是能力不足，而是缺乏 GUI 操作的先验经验。通过注入少量示例即可大幅弥补。

训练策略¶

难度评估器：在人工标注的 5K 难度标签上微调 120M 嵌入模型，使用 BCE loss
路由策略本身无需训练，阈值通过验证集搜索确定
记忆库在线更新，采用 FIFO 策略维持固定大小（1000 条）

实验关键数据¶

主实验：ScreenSpot-Pro GUI Grounding 准确率¶

模型/方法	准确率 (%)	推理成本 (相对)	延迟 (ms/动作)
GPT-4o	0.8	1.00×	~3000
OS-Atlas-7B	18.9	0.05×	~200
Qwen2.5-VL-14B	28.3	0.12×	~400
Qwen2.5-VL-72B	43.6	0.80×	~2000
AVR (7B+72B)	42.7	0.22×	~450

AVR 以仅 22% 的成本达到接近 72B 单模型的准确率（42.7% vs 43.6%），且平均延迟大幅降低。

OpenClaw 任务成功率¶

方法	成功率 (%)	平均步数	平均成本 ($)
Qwen2.5-VL-7B	68.2	32.1	0.12
Qwen2.5-VL-72B	87.5	28.4	2.85
固定路由 (50/50)	79.1	30.2	1.48
RouteLLM (文本)	76.8	31.0	0.89
AVR	85.7	29.1	0.63

AVR 在 OpenClaw 上成功率仅低于纯 72B 模型 1.8pp，但成本降低了 78%（$0.63 vs $2.85）。

消融实验¶

难度评估器	置信度探测	记忆注入	成功率 (%)	成本 ($)
✗	✗	✗	68.2	0.12
✓	✗	✗	78.3	0.95
✓	✓	✗	82.1	0.71
✓	✓	✓	85.7	0.63
✗	✓	✓	83.4	0.82

三个组件均有显著贡献。记忆注入不仅提升成功率（+3.6pp），还进一步降低成本（从 $0.71 到 $0.63），因为它减少了升级到大模型的次数。

关键发现¶

GPT-4o 在 GUI grounding 上表现极差（0.8%），说明闭源模型在特定领域并不一定优于开源模型，模型选择需要基于任务评测而非品牌
记忆注入的不对称效应是核心发现：小模型受益巨大（+13pp），大模型几乎无感（+1pp），这为路由策略的经济性提供了理论支撑
动作难度分布呈长尾：约 45% 的动作属于"简单"类别，可直接由小模型处理；30% 为中等难度，记忆注入后小模型可搞定；仅 25% 的动作真正需要大模型
Guardrail 对高风险动作的必要性：在涉及不可逆操作（删除文件、发送消息、支付）时，即使大模型也有约 3% 的错误率，额外的 guardrail 验证将其降至 0.5%

亮点与洞察¶

切中 CUA 落地痛点：成本是 CUA 规模化部署的最大障碍，AVR 将推理成本降低近 5 倍，使 CUA 的商业化更可行
记忆注入的巧妙复用：记忆既服务于路由决策（降低升级率），又提升小模型本身的能力，一举两得
三层级联设计优雅：每层都有明确的分工和退出条件，避免了复杂的联合优化，工程上易于实现和调优
挑战"大模型万能"迷思：GPT-4o 在 GUI grounding 上的惨淡表现是对行业盲目追求大模型的有力反驳

局限性 / 可改进方向¶

难度评估器需要针对特定 GUI 域（桌面、移动、Web）分别训练，跨域泛化能力未验证
置信度阈值为静态设定，理想情况下应该根据任务类型和当前进度动态调整
记忆库采用简单 FIFO，未考虑经验的多样性和代表性，可能导致某些类型的操作经验被冲刷
仅在 Qwen2.5-VL 系列上验证路由效果，对其他 VLM 系列（如 InternVL、LLaVA-OneVision）的适用性未知
三层路由引入额外的工程复杂度和故障点，实际部署中的鲁棒性需要更多验证
缺乏对多轮任务中错误传播和恢复机制的讨论

评分¶

新颖性: ⭐⭐⭐⭐ — 多层路由思路不算全新，但在 CUA 场景的应用和记忆注入的设计有创新
实验充分度: ⭐⭐⭐⭐ — 两个主流 benchmark 验证，消融完整，但缺少更多 VLM 组合的对比
写作质量: ⭐⭐⭐⭐ — 动机阐述清晰，系统设计讲解直观，但评估器的训练细节偏少
价值: ⭐⭐⭐⭐⭐ — 直击 CUA 成本痛点，78% 的成本降低非常实用，对 Agent 部署有重要参考意义