Adaptive Vision-Language Model Routing for Computer Use Agents¶

会议: CVPR 2026
arXiv: 2603.12823
代码: GitHub (有)
领域: 多模态VLM / GUI智能体 / 模型路由
关键词: VLM路由, GUI智能体, 成本优化, 置信度探测, 记忆增强

一句话总结¶

在CUA编排器和VLM池之间插入轻量语义路由层，通过难度分类+logprob置信度探测+记忆注入三机制，将大部分GUI操作交给小模型处理，推理成本降低78%且精度仅下降2个百分点。

背景与动机¶

计算机使用代理(CUA)依赖VLM来解读截图并执行GUI操作（点击、输入、滚动），但当前系统对所有操作使用同一个固定VLM，不区分任务难度。ScreenSpot-Pro的数据揭示了一个关键洞察：GPT-4o (1.8T参数)在GUI定位上仅0.8%准确率，而专用的OS-Atlas-7B达到18.9%——模型大小并非定位精度的可靠预测因子。Qwen2.5-VL系列从3B→72B（24倍参数），精度仅从24.2%→43.6%（1.8倍），边际收益递减明显。同时，跨应用的精度方差（VS Code >35% vs Premiere Pro <15%）远大于跨模型的方差，说明动作难度比模型选择更重要。

核心问题¶

CUA每步操作都调用大VLM导致成本高昂（一个20步任务耗费~400K input tokens, $0.10-$0.40），而简单动作（点大按钮）和困难动作（在密集IDE工具栏定位小图标）的模型需求差异巨大，需要按需路由。

方法详解¶

整体框架¶

AVR在CUA编排器和VLM池之间插入透明代理层，对每个工具调用依次执行：安全检查→难度分类→小模型探测→路由决策，形成三层路由策略：Tier 1小模型(低成本，~78%流量)、Tier 2大模型(高精度，~17%)、Tier 3大模型+安全护栏(~5%)。

关键设计¶

多模态难度分类: 裁剪预测坐标周围100×100像素区域，用120M参数的SigLIP+MiniLM-L6-v2编码到384维空间，与难度知识库做最近邻匹配。视觉难度d_vis和语义难度d_sem取最大值作为综合分数
Logprob置信度探测: 非流式调用小VLM获取logprob，计算标准化置信度conf = (mean_logprob + |ℓ_min|) / |ℓ_min|，结合难度自适应阈值（easy<0.3用τ=0.80, hard>0.7用τ=0.92，中间线性插值）决定是否升级
记忆补偿路由: 暖启动代理注入历史交互记忆（UI元素位置、导航路径、成功/失败操作），使小模型置信度从0.83大幅升至0.96，ΔconfS ≫ ΔconfL，形成"越用越便宜"的良性循环
安全集成路由: 与Visual Confused Deputy护栏集成，高风险操作强制升级至最强模型+护栏验证，复用同一多模态编码器零额外开销

损失函数 / 训练策略¶

路由为基于阈值的策略推导，无需端到端训练。路由问题形式化为：min Σc_{π(i)} s.t. accuracy ≥ τ_acc。成本模型E[c] = (1-α)c_S + α(c_S^probe + c_L)，小模型10×便宜时、升级20%即得70%成本节省。

实验关键数据¶

场景	升级率α	有效精度	每调用成本	节省
全用72B(基线)	1.0	43.6%	$0.27	—
冷启动AVR	0.35	42.1%	$0.13	52%
暖启动AVR	0.15	41.3%	$0.08	70%
暖启动+难度分类	0.10	42.8%	$0.06	78%

OpenClaw基准：暖启动代理小模型保留率从14%→100%，成本降低86%。

消融实验要点¶

记忆注入创造双峰分布：冷态均值0.83(低于0.85阈值)→暖态0.96(远超阈值)，实现清晰分离
应用预热曲线呈对数形态：前5-10次交互获最大增益
代理工作负载将置信度压缩到窄频段(高0.93-0.97，中0.83-0.90)，默认chatbot阈值0.93会过度升级
应用间精度方差7×(>35% VS Code vs <15% Premiere Pro)，证明按动作路由优于统一扩模型

亮点¶

将CUA推理重新定义为"自适应资源分配"而非固定成本
记忆不仅提升能力更移动路由边界——成本感知的模型选择机制
安全/成本/精度三目标在同一路由层统一
分析诚实：明确标注哪些数据是实测vs推算

局限性 / 可改进方向¶

CUA grounding成本节省是从OpenClaw文本任务推算到CUA场景的，缺乏端到端CUA验证
极短任务(2-3步)探测开销可能抵消收益
冷启动代理无记忆，暖启动优势受限
难度知识库需覆盖目标应用，未见应用默认中等难度可能误路由

与相关工作的对比¶

vs FrugalGPT: 文本级联路由，AVR扩展到多模态CUA，需考虑视觉定位不确定性+操作风险
vs HybridLLM: 训练路由器预测难度后分发，AVR额外引入记忆补偿和安全覆盖
vs Visual Confused Deputy: 纯安全护栏(事后过滤)，AVR将安全信号融入路由决策

启发与关联¶

路由思想可推广到视觉感知的多级模型选择场景
"记忆作为模型尺寸均衡器"的理念值得在其他agent系统验证

评分¶

新颖性: ⭐⭐⭐⭐ 将路由/记忆/安全三者统一的框架设计有新意
实验充分度: ⭐⭐⭐ 分析详尽但核心CUA成本节省基于推算而非端到端实测
写作质量: ⭐⭐⭐⭐ 问题建模清晰，公式推导完整，局限坦诚
价值: ⭐⭐⭐ 对规模化CUA部署有实用意义，路由框架可泛化