Adaptive Vision-Language Model Routing for Computer Use Agents¶
会议: CVPR 2026
arXiv: 2603.12823
代码: GitHub (有)
领域: 多模态VLM / GUI智能体 / 模型路由
关键词: VLM路由, GUI智能体, 成本优化, 置信度探测, 记忆增强
一句话总结¶
在CUA编排器和VLM池之间插入轻量语义路由层,通过难度分类+logprob置信度探测+记忆注入三机制,将大部分GUI操作交给小模型处理,推理成本降低78%且精度仅下降2个百分点。
背景与动机¶
计算机使用代理(CUA)依赖VLM来解读截图并执行GUI操作(点击、输入、滚动),但当前系统对所有操作使用同一个固定VLM,不区分任务难度。ScreenSpot-Pro的数据揭示了一个关键洞察:GPT-4o (1.8T参数)在GUI定位上仅0.8%准确率,而专用的OS-Atlas-7B达到18.9%——模型大小并非定位精度的可靠预测因子。Qwen2.5-VL系列从3B→72B(24倍参数),精度仅从24.2%→43.6%(1.8倍),边际收益递减明显。同时,跨应用的精度方差(VS Code >35% vs Premiere Pro <15%)远大于跨模型的方差,说明动作难度比模型选择更重要。
核心问题¶
CUA每步操作都调用大VLM导致成本高昂(一个20步任务耗费~400K input tokens, \(0.10-\)0.40),而简单动作(点大按钮)和困难动作(在密集IDE工具栏定位小图标)的模型需求差异巨大,需要按需路由。
方法详解¶
整体框架¶
AVR在CUA编排器和VLM池之间插入透明代理层,对每个工具调用依次执行:安全检查→难度分类→小模型探测→路由决策,形成三层路由策略:Tier 1小模型(低成本,~78%流量)、Tier 2大模型(高精度,~17%)、Tier 3大模型+安全护栏(~5%)。
关键设计¶
- 多模态难度分类: 裁剪预测坐标周围100×100像素区域,用120M参数的SigLIP+MiniLM-L6-v2编码到384维空间,与难度知识库做最近邻匹配。视觉难度d_vis和语义难度d_sem取最大值作为综合分数
- Logprob置信度探测: 非流式调用小VLM获取logprob,计算标准化置信度conf = (mean_logprob + |ℓ_min|) / |ℓ_min|,结合难度自适应阈值(easy<0.3用τ=0.80, hard>0.7用τ=0.92,中间线性插值)决定是否升级
- 记忆补偿路由: 暖启动代理注入历史交互记忆(UI元素位置、导航路径、成功/失败操作),使小模型置信度从0.83大幅升至0.96,ΔconfS ≫ ΔconfL,形成"越用越便宜"的良性循环
- 安全集成路由: 与Visual Confused Deputy护栏集成,高风险操作强制升级至最强模型+护栏验证,复用同一多模态编码器零额外开销
损失函数 / 训练策略¶
路由为基于阈值的策略推导,无需端到端训练。路由问题形式化为:min Σc_{π(i)} s.t. accuracy ≥ τ_acc。成本模型E[c] = (1-α)c_S + α(c_S^probe + c_L),小模型10×便宜时、升级20%即得70%成本节省。
实验关键数据¶
| 场景 | 升级率α | 有效精度 | 每调用成本 | 节省 |
|---|---|---|---|---|
| 全用72B(基线) | 1.0 | 43.6% | $0.27 | — |
| 冷启动AVR | 0.35 | 42.1% | $0.13 | 52% |
| 暖启动AVR | 0.15 | 41.3% | $0.08 | 70% |
| 暖启动+难度分类 | 0.10 | 42.8% | $0.06 | 78% |
OpenClaw基准:暖启动代理小模型保留率从14%→100%,成本降低86%。
消融实验要点¶
- 记忆注入创造双峰分布:冷态均值0.83(低于0.85阈值)→暖态0.96(远超阈值),实现清晰分离
- 应用预热曲线呈对数形态:前5-10次交互获最大增益
- 代理工作负载将置信度压缩到窄频段(高0.93-0.97,中0.83-0.90),默认chatbot阈值0.93会过度升级
- 应用间精度方差7×(>35% VS Code vs <15% Premiere Pro),证明按动作路由优于统一扩模型
亮点¶
- 将CUA推理重新定义为"自适应资源分配"而非固定成本
- 记忆不仅提升能力更移动路由边界——成本感知的模型选择机制
- 安全/成本/精度三目标在同一路由层统一
- 分析诚实:明确标注哪些数据是实测vs推算
局限性 / 可改进方向¶
- CUA grounding成本节省是从OpenClaw文本任务推算到CUA场景的,缺乏端到端CUA验证
- 极短任务(2-3步)探测开销可能抵消收益
- 冷启动代理无记忆,暖启动优势受限
- 难度知识库需覆盖目标应用,未见应用默认中等难度可能误路由
与相关工作的对比¶
- vs FrugalGPT: 文本级联路由,AVR扩展到多模态CUA,需考虑视觉定位不确定性+操作风险
- vs HybridLLM: 训练路由器预测难度后分发,AVR额外引入记忆补偿和安全覆盖
- vs Visual Confused Deputy: 纯安全护栏(事后过滤),AVR将安全信号融入路由决策
启发与关联¶
- 路由思想可推广到视觉感知的多级模型选择场景
- "记忆作为模型尺寸均衡器"的理念值得在其他agent系统验证
评分¶
- 新颖性: ⭐⭐⭐⭐ 将路由/记忆/安全三者统一的框架设计有新意
- 实验充分度: ⭐⭐⭐ 分析详尽但核心CUA成本节省基于推算而非端到端实测
- 写作质量: ⭐⭐⭐⭐ 问题建模清晰,公式推导完整,局限坦诚
- 价值: ⭐⭐⭐ 对规模化CUA部署有实用意义,路由框架可泛化