CUAAudit: Meta-Evaluation of Vision-Language Models as Auditors of Autonomous Computer-Use Agents¶

日期: 2026-03-11
arXiv: 2603.10577
代码: 无
领域: 多模态VLM / Agent评估
关键词: Computer-Use Agent, VLM auditor, meta-evaluation, calibration, inter-model agreement

一句话总结¶

系统性地评估了 5 个 VLM 作为 Computer-Use Agent (CUA) 自动审计员的能力，跨三大操作系统基准测试，从准确率、置信度校准和模型间一致性三个维度揭示了当前 VLM 审计方法的局限。

研究背景与动机¶

领域现状: Computer-Use Agents (CUA) 通过自然语言指令直接在 GUI 上执行任务（点击、输入、滚动等），是人机交互新范式。随着 CUA 部署增多，评估其行为正确性成为关键挑战。
现有痛点: 现有 CUA 评估依赖静态基准、规则检查或人工审查——成本高、脆弱、难以扩展，且与真实使用场景对齐不足。
核心矛盾: CUA 在用户桌面上自主操作，涉及敏感数据，错误行为后果严重，但缺乏可靠的自动化评估机制。
切入角度: 用 VLM 作为自动审计员，给定任务指令 + 最终 GUI 截图，让 VLM 判断任务是否成功完成。关键问题是：VLM 审计员本身有多可靠？
核心 idea: 对"评估者"进行"元评估"——不是提出新审计方法，而是系统分析 VLM 审计员的准确性、校准度和一致性。

方法详解¶

整体框架¶

输入: 任务指令 \(d_i\) + 最终 GUI 截图 \(x_i\) → VLM 审计员 → 输出: 完成概率 \(p_i^{(m)} \in [0,1]\) + 二元判断 \(\hat{y}_i^{(m)} \in \{0,1\}\)

关键设计¶

审计员选择:
- 商用模型: GPT-4o、Claude 3.5 Sonnet
- 开源模型: InternVL-2-8B、Qwen2-VL-7B、LLaVA-v1.5-7B
- 覆盖不同架构、规模和训练范式
三维评估框架:
- 准确率: 与基准 ground truth 对比的二元分类正确率
- 校准度: 用 Brier score \(\mathrm{Brier}_m = \frac{1}{N}\sum_{i=1}^{N}(p_i^{(m)} - y_i)^2\) 衡量置信度是否反映真实不确定性
- 模型间一致性: Cohen's \(\kappa\) 衡量不同审计员判断是否一致
跨平台基准:
- macOSWorld、Windows Agent Arena、OSWorld
- 覆盖 macOS、Windows、Linux 三大桌面系统
- 所有基准提供二元成功标签作为 ground truth

实验关键数据¶

主实验 — 审计准确率¶

审计模型	macOSWorld	Windows Agent Arena	OSWorld
GPT-4o	0.91	0.71	0.77
Claude 3.5 Sonnet	0.89	0.75	0.79
InternVL-2-8B	0.85	0.69	0.72
Qwen2-VL-7B	0.87	0.68	0.73
LLaVA-v1.5-7B	0.82	0.66	0.68

校准度 — Brier Score (越低越好)¶

审计模型	macOSWorld	Windows Agent Arena	OSWorld
GPT-4o	0.058	0.091	0.074
Claude 3.5 Sonnet	0.063	0.099	0.081
InternVL-2-8B	0.097	0.142	0.118
Qwen2-VL-7B	0.105	0.167	0.141

关键发现¶

商用模型全面领先: GPT-4o 和 Claude 3.5 Sonnet 在准确率和校准度上均大幅领先开源模型
环境强烈影响性能: 所有模型在 macOSWorld 上准确率最高，在 Windows/Linux 上显著下降，环境异构性是审计难度主因
校准度≠准确率: 准确率相近的模型校准度可能差异很大，Qwen2-VL 准确率还行但校准极差
模型间分歧大: 商用模型间 \(\kappa = 0.66\text{-}0.76\)，商用-开源间更低 (\(\kappa = 0.54\text{-}0.69\))，复杂任务放大分歧
很多 CUA 任务的完成状态从单张最终截图难以判断（隐藏状态、后台效果、瞬态变化）

亮点与洞察¶

"评估评估者"范式: 不只用 VLM 做评估，而是系统性地验证评估本身的可靠性——在 CUA 安全部署中至关重要
三维评估很全面: 不只看准确率，校准度和一致性对下游决策（何时需要人确认、何时触发回退）同样关键
模型间分歧作为信号: 分歧不只是噪声，可指示任务模糊性或观测不足，这个观点很有洞见

局限性 / 可改进方向¶

仅用最终截图评估，忽略中间状态和动作序列——加入历史轨迹可能大幅提升
校准分析基于提示式自报置信度，非 token 级 logprob——校准结论受提示词设计影响
仅评估二元完成判断，未涉及安全、隐私、副作用等关键维度
开源模型仅 7-8B 规模，更大规模开源 VLM（如 70B+）可能缩小差距

评分¶

新颖性: ⭐⭐⭐⭐ "元评估审计员"的问题提法新颖有价值
实验充分度: ⭐⭐⭐⭐ 5个模型×3个平台，三维度分析全面
写作质量: ⭐⭐⭐⭐ 结构清晰，问题动机明确
价值: ⭐⭐⭐⭐ 对 CUA 安全部署有直接指导意义