OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents¶
会议: ACL 2025 arXiv: 2503.16465 代码: https://github.com/Wuzheng02/OS-Kairos 领域: LLM Agent / GUI 自动化 关键词: GUI Agent, 置信度驱动交互, 人机协作, 过度执行, 自适应交互, 协作探测框架
一句话总结¶
提出 OS-Kairos,通过协作探测框架标注每步置信度分数并微调进基座模型,使 GUI Agent 能在每步预测置信度、自主决定执行或请求人类干预,在复杂场景下任务成功率 (TSR) 从 OS-Atlas-Pro-7B 的 14.29% 提升到 88.20%,在 AITZ 和 Meta-GUI 基准上也有 24~87% 的绝对提升。
研究背景与动机¶
- 领域现状:MLLM 驱动的 GUI Agent(如 OS-Atlas、Auto-UI、AppAgent)已能在移动/桌面环境完成截图分析和动作预测,在简单 GUI 任务上取得了不错性能。现有工作主要关注 grounding 能力(SeeClick、OS-Atlas)和推理能力(Auto-UI、AITZ)的提升。
- 核心痛点——过度执行 (Over-execution):现有 GUI Agent 完全自主运行,不评估动作置信度,遇到不确定情况也继续盲目执行,导致不可逆错误。Pilot 实验显示,Qwen2-VL-7B 在复杂场景 TSR 为 0%,OS-Atlas-Pro-7B 仅 17%。
- 三类典型复杂场景:(1) 模糊指令——用户指令缺乏关键信息(如购物未指定尺码、账号登出场景);(2) 意外中断——模型幻觉和快捷预测导致偏离正确轨迹;(3) 环境劫持——弹窗劫持、网络断连、权限请求等外部干扰。
- 现有解决方案的不足:Meta-GUI 提出了对话式引导,但需要人工标注每个复杂步骤,严重限制可扩展性。Prompt-based 交互方式在 OS-Atlas-Pro-7B 上 HSR 为 0%,形同虚设。完全依赖每步人类干预虽可提升到 TSR 62%,但不现实。
- 切入角度:将置信度评分能力直接集成到基座模型中,使 Agent 具备"自知之明"——知道何时该自主行动、何时该停下来寻求帮助。
- 核心 idea:两阶段方案——先用 GPT-4o 作为 Critic 自动标注探测 Agent 每步的置信度分数(协作探测),再将置信度分数与动作预测联合训练进模型(置信度驱动交互),部署时通过阈值控制交互灵敏度。
方法详解¶
整体框架¶
OS-Kairos 的 pipeline 分三步: 1. 指令收集:从公开数据集+人工设计收集复杂指令,用 GPT-4 扩增多样性,覆盖中英文、12 个 APP、12 个主题 2. 协作探测框架 (Collaborative Probing):用 Agent-Critic 协作范式,在真实手机设备上自动生成带置信度标注的高质量轨迹 3. 置信度驱动交互 (Confidence-driven Interaction):将标注数据微调进基座模型,使模型同时输出动作和置信度
关键设计 1:协作探测框架 (Collaborative Probing Framework)¶
- 做什么:自动为探测 Agent(OS-Atlas-Pro-7B)在每个交互步骤标注 1-5 分的置信度分数,同时生成高质量 GUI 轨迹数据
- 核心思路:Agent-Critic 协作范式。Agent(OS-Atlas-Pro-7B)负责预测动作,Critic(GPT-4o + 布局解析模型)负责评分和监督:
- Agent 预测当前步动作 \(a_t^p\)
- Critic 根据截图、计划表、历史轨迹综合评估,输出 1-5 分的 \(\text{score}_t\)
- 若 \(\text{score}_t = 5\),说明 Agent 正确,执行 Agent 动作
- 若 \(\text{score}_t < 5\),Critic 提供修正动作 \(a_t^c\) 来纠正并继续探测
- Critic 同时监控计划表进度,判断指令是否完成
- 设计动机:(1) 连接真实手机设备(非模拟器),覆盖商业 APP(如小红书有保护机制);(2) GPT-4o 作为当前最强多模态模型,具备可靠的判断能力;(3) 通过 Agent-Critic 协作实现自动化标注,避免人工逐步标注的高成本
- 数据精炼:验证并精化轨迹,确保动作与置信度分数一致。分数为 5 的步骤集中在常规操作(打开 APP、点击搜索栏),而复杂步骤的分数显著下降
关键设计 2:置信度驱动交互 (Confidence-driven Interaction)¶
- 做什么:将置信度评分能力集成进 GUI Agent,使其在每步同时输出动作和置信度,并根据置信度自适应决定是否请求人类干预
- 核心思路:
- 训练:将动作预测和置信度分数拼接为一个序列,用标准 next-token prediction 训练:\(\mathcal{L} = \sum_{i=1}^{N} \mathcal{P}_\theta((a_t || \text{score}_t)^i | P_p(s_t, \tau_i, h_{t-1}, (a_t || \text{score}_t)^{<i}))\)
- 推理:引入阈值 \(\gamma\),当 \(\text{score}_t < \gamma\) 时触发人类干预,否则自主执行
- 设计动机:(1) 拼接序列训练比多任务训练更稳定,不损害原有动作预测能力;(2) 阈值机制提供灵活性——\(\gamma\) 最小值 = 全自主,\(\gamma\) 最大值 = 全交互,中间值 = 自适应;(3) 置信度分数对人类用户提供了可解释的决策依据
训练策略¶
- 基座模型:OS-Atlas-Pro-7B
- 8 epochs,学习率 1e-5,80/20 划分训练/测试
- 默认阈值 \(\gamma = 4\)
- 置信度标注使用 GPT-4o 作为 Critic,布局解析用 ResNet18(OCR 检测)+ ConvNextTiny(OCR 识别)
实验关键数据¶
主实验:复杂场景 zero-shot 对比¶
| 模型 | Type (%) | SR (%) | TSR (%) |
|---|---|---|---|
| Qwen2-VL-7B | 43.19 | 18.94 | 0.00 |
| OS-Atlas-Pro-7B | 97.69 | 59.12 | 17.00 |
| GPT-4o (API) | 90.07 | 76.35 | 39.13 |
| Qwen-VL-MAX (API) | 92.21 | 46.89 | 29.81 |
| OS-Kairos | 99.88 | 95.90 | 88.20 |
跨基准 zero-shot 结果¶
| 基准 | OS-Atlas-Pro-7B SR/TSR | OS-Kairos SR/TSR |
|---|---|---|
| 复杂场景 | 61.36 / 14.29 | 95.90 / 88.20 (+73.91) |
| AITZ | 58.32 / 11.15 | 87.54 / 24.51 (+24.51) |
| Meta-GUI | 84.27 / 57.29 | 96.36 / 87.71 (+87.29) |
真实设备动态评估¶
| 模型 | 实际步数 | 相对效率 RE (%) | TSR (%) |
|---|---|---|---|
| GPT-4o | 302 | 75.83 | 36.00 |
| OS-Atlas-Pro-7B | 359 | 63.79 | 26.00 |
| OS-Kairos (GPT-4o辅助) | 245 | 93.47 | 32.00 |
| OS-Kairos (人类辅助) | 265 | 86.42 | 70.00 |
消融实验¶
Critic 模型消融:
| Critic 模型 | TSR (%) | HSR (%) | IP (%) | AP (%) |
|---|---|---|---|---|
| GPT-4o | 87.71 | 86.87 | 70.75 | 96.44 |
| Qwen-VL-MAX | 85.71 | 57.63 | 61.50 | 91.55 |
数据规模消融 (训练:测试):
| 划分比例 | Type (%) | SR (%) | TSR (%) | HSR (%) |
|---|---|---|---|---|
| 9:1 | 99.25 | 92.21 | 76.19 | 84.67 |
| 8:2 | 99.88 | 95.90 | 88.20 | 86.87 |
| 7:3 | 99.46 | 94.16 | 83.94 | 84.79 |
| 6:4 | 99.41 | 94.05 | 78.30 | 84.47 |
阈值敏感性:\(\gamma=4\) 时需 37.28% 干预率获 88.20% TSR;\(\gamma=2\) 时仅需 19.01% 干预率(每条指令平均 0.81 步人类干预)即可达 55.28% TSR,已接近微调模型水平。
关键发现¶
- TSR 从 14%→88%:自适应交互在复杂场景下带来质变提升,SR 低导致 TSR 指数级下降,而人类干预关键步骤即可解锁全局成功
- Prompt-based 交互无效:OS-Atlas-Pro-7B 用 prompt 方式做交互,HSR 为 0%,TSR 仅 9.94%,说明必须通过微调将置信度能力内化
- 跨模型泛化有效:置信度数据蒸馏到 Qwen2-VL-2B 仍可达 85.09% TSR,说明标注数据向下兼容
- 少量数据即够:8:2 划分即达最佳效果,置信度集成不需要大量数据
- 效率接近人类:OS-Kairos 的相对效率 RE 达 86~93%,远优于基线模型的 57~75%
亮点与洞察¶
- "知道什么时候停下来问"比"什么都会做"更重要:这是 Agent 从 demo 走向实用的关键能力。在复杂场景下,盲目自主的 TSR 只有 0~17%,而知道何时求助可以达到 88%
- 置信度作为序列预测的天然副产品:将置信度分数拼接到动作序列末尾,用标准 NTP 训练,既简单又不损害原有能力,是一个非常实用的设计模式
- Agent-Critic 协作标注范式:用强模型监督弱模型生成自动标注数据,解决了置信度ground truth 从哪来的核心问题,具有很好的通用性
- 阈值提供了连续的人机控制谱:从全自主到全交互可以平滑调节,不同应用场景可根据安全需求灵活配置
- 三类过度执行场景的分类:模糊指令 / 意外中断 / 环境劫持,为 GUI Agent 安全性研究提供了清晰的问题框架
局限性 / 可改进方向¶
- Critic 模型依赖 GPT-4o:置信度标注质量高度依赖 Critic 能力,换用 Qwen-VL-MAX 后 HSR 从 86.87% 降到 57.63%。未来可探索自监督或 RL 方式获取置信度信号
- 场景覆盖有限:仅覆盖三类典型复杂场景(12 个 APP、12 个主题),真实世界的长尾场景远多于此
- 人类干预假设理想化:评估中使用 ground truth 或 GPT-4o 模拟人类干预,实际场景中人类反馈可能不准确或延迟
- 仅在移动端验证:论文仅在 Android 手机端评估,未验证在 Web 端和桌面端的泛化性
- 置信度校准问题:未分析置信度分数是否真正校准(score=3 是否意味着 60% 的正确率),可能存在过度/不足自信的问题
- 可考虑动态阈值:当前阈值 \(\gamma\) 全程固定,实际可根据任务复杂度或历史表现动态调整
相关工作与启发¶
- GUI Agent 线路:AppAgent (prompt-based) → Auto-UI (推理增强) → OS-Atlas (grounding 增强) → OS-Kairos (自适应交互),是能力提升的一条清晰演进路线
- 能力探测方向:从静态 benchmark 评估(AITW、AndroidControl)到动态置信度探测,是评估范式的重要进化
- 对其他 Agent 系统的启发:置信度驱动交互不限于 GUI Agent,任何需要人机协作的 Agent 场景(代码生成、自动驾驶决策、医疗诊断辅助)都可借鉴"高置信自主、低置信求助"的设计思路
- 与 RLHF 的联系:Critic 模型角色类似 reward model,但不走 RL 路线而是直接 SFT,更简单高效
评分¶
- 新颖性: ⭐⭐⭐⭐ 置信度驱动的自适应 GUI 交互是一个自然但被忽视的切入点,Agent-Critic 协作标注范式有通用价值,但核心技术(SFT + 阈值判断)相对直接
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3 个数据集 + 真实设备动态评估 + 6 项消融(Critic 模型 / 数据规模 / 模型规模 / 阈值 / 交互范式 / prompt-based 对比),非常全面
- 写作质量: ⭐⭐⭐⭐ 问题分类(三类过度执行场景)清晰,Pilot 实验有说服力,整体逻辑通顺;公式表述有些冗余
- 价值: ⭐⭐⭐⭐⭐ 直击 GUI Agent 实际部署的核心痛点(安全性),88% TSR vs 14% 的提升有强说服力,阈值控制的灵活性对工业落地友好