跳转至

OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents

会议: ACL 2025 arXiv: 2503.16465 代码: https://github.com/Wuzheng02/OS-Kairos 领域: LLM Agent / GUI 自动化 关键词: GUI Agent, 置信度驱动交互, 人机协作, 过度执行, 自适应交互, 协作探测框架

一句话总结

提出 OS-Kairos,通过协作探测框架标注每步置信度分数并微调进基座模型,使 GUI Agent 能在每步预测置信度、自主决定执行或请求人类干预,在复杂场景下任务成功率 (TSR) 从 OS-Atlas-Pro-7B 的 14.29% 提升到 88.20%,在 AITZ 和 Meta-GUI 基准上也有 24~87% 的绝对提升。

研究背景与动机

  1. 领域现状:MLLM 驱动的 GUI Agent(如 OS-Atlas、Auto-UI、AppAgent)已能在移动/桌面环境完成截图分析和动作预测,在简单 GUI 任务上取得了不错性能。现有工作主要关注 grounding 能力(SeeClick、OS-Atlas)和推理能力(Auto-UI、AITZ)的提升。
  2. 核心痛点——过度执行 (Over-execution):现有 GUI Agent 完全自主运行,不评估动作置信度,遇到不确定情况也继续盲目执行,导致不可逆错误。Pilot 实验显示,Qwen2-VL-7B 在复杂场景 TSR 为 0%,OS-Atlas-Pro-7B 仅 17%。
  3. 三类典型复杂场景:(1) 模糊指令——用户指令缺乏关键信息(如购物未指定尺码、账号登出场景);(2) 意外中断——模型幻觉和快捷预测导致偏离正确轨迹;(3) 环境劫持——弹窗劫持、网络断连、权限请求等外部干扰。
  4. 现有解决方案的不足:Meta-GUI 提出了对话式引导,但需要人工标注每个复杂步骤,严重限制可扩展性。Prompt-based 交互方式在 OS-Atlas-Pro-7B 上 HSR 为 0%,形同虚设。完全依赖每步人类干预虽可提升到 TSR 62%,但不现实。
  5. 切入角度:将置信度评分能力直接集成到基座模型中,使 Agent 具备"自知之明"——知道何时该自主行动、何时该停下来寻求帮助。
  6. 核心 idea:两阶段方案——先用 GPT-4o 作为 Critic 自动标注探测 Agent 每步的置信度分数(协作探测),再将置信度分数与动作预测联合训练进模型(置信度驱动交互),部署时通过阈值控制交互灵敏度。

方法详解

整体框架

OS-Kairos 的 pipeline 分三步: 1. 指令收集:从公开数据集+人工设计收集复杂指令,用 GPT-4 扩增多样性,覆盖中英文、12 个 APP、12 个主题 2. 协作探测框架 (Collaborative Probing):用 Agent-Critic 协作范式,在真实手机设备上自动生成带置信度标注的高质量轨迹 3. 置信度驱动交互 (Confidence-driven Interaction):将标注数据微调进基座模型,使模型同时输出动作和置信度

关键设计 1:协作探测框架 (Collaborative Probing Framework)

  • 做什么:自动为探测 Agent(OS-Atlas-Pro-7B)在每个交互步骤标注 1-5 分的置信度分数,同时生成高质量 GUI 轨迹数据
  • 核心思路:Agent-Critic 协作范式。Agent(OS-Atlas-Pro-7B)负责预测动作,Critic(GPT-4o + 布局解析模型)负责评分和监督:
  • Agent 预测当前步动作 \(a_t^p\)
  • Critic 根据截图、计划表、历史轨迹综合评估,输出 1-5 分的 \(\text{score}_t\)
  • \(\text{score}_t = 5\),说明 Agent 正确,执行 Agent 动作
  • \(\text{score}_t < 5\),Critic 提供修正动作 \(a_t^c\) 来纠正并继续探测
  • Critic 同时监控计划表进度,判断指令是否完成
  • 设计动机:(1) 连接真实手机设备(非模拟器),覆盖商业 APP(如小红书有保护机制);(2) GPT-4o 作为当前最强多模态模型,具备可靠的判断能力;(3) 通过 Agent-Critic 协作实现自动化标注,避免人工逐步标注的高成本
  • 数据精炼:验证并精化轨迹,确保动作与置信度分数一致。分数为 5 的步骤集中在常规操作(打开 APP、点击搜索栏),而复杂步骤的分数显著下降

关键设计 2:置信度驱动交互 (Confidence-driven Interaction)

  • 做什么:将置信度评分能力集成进 GUI Agent,使其在每步同时输出动作和置信度,并根据置信度自适应决定是否请求人类干预
  • 核心思路
  • 训练:将动作预测和置信度分数拼接为一个序列,用标准 next-token prediction 训练:\(\mathcal{L} = \sum_{i=1}^{N} \mathcal{P}_\theta((a_t || \text{score}_t)^i | P_p(s_t, \tau_i, h_{t-1}, (a_t || \text{score}_t)^{<i}))\)
  • 推理:引入阈值 \(\gamma\),当 \(\text{score}_t < \gamma\) 时触发人类干预,否则自主执行
  • 设计动机:(1) 拼接序列训练比多任务训练更稳定,不损害原有动作预测能力;(2) 阈值机制提供灵活性——\(\gamma\) 最小值 = 全自主,\(\gamma\) 最大值 = 全交互,中间值 = 自适应;(3) 置信度分数对人类用户提供了可解释的决策依据

训练策略

  • 基座模型:OS-Atlas-Pro-7B
  • 8 epochs,学习率 1e-5,80/20 划分训练/测试
  • 默认阈值 \(\gamma = 4\)
  • 置信度标注使用 GPT-4o 作为 Critic,布局解析用 ResNet18(OCR 检测)+ ConvNextTiny(OCR 识别)

实验关键数据

主实验:复杂场景 zero-shot 对比

模型 Type (%) SR (%) TSR (%)
Qwen2-VL-7B 43.19 18.94 0.00
OS-Atlas-Pro-7B 97.69 59.12 17.00
GPT-4o (API) 90.07 76.35 39.13
Qwen-VL-MAX (API) 92.21 46.89 29.81
OS-Kairos 99.88 95.90 88.20

跨基准 zero-shot 结果

基准 OS-Atlas-Pro-7B SR/TSR OS-Kairos SR/TSR
复杂场景 61.36 / 14.29 95.90 / 88.20 (+73.91)
AITZ 58.32 / 11.15 87.54 / 24.51 (+24.51)
Meta-GUI 84.27 / 57.29 96.36 / 87.71 (+87.29)

真实设备动态评估

模型 实际步数 相对效率 RE (%) TSR (%)
GPT-4o 302 75.83 36.00
OS-Atlas-Pro-7B 359 63.79 26.00
OS-Kairos (GPT-4o辅助) 245 93.47 32.00
OS-Kairos (人类辅助) 265 86.42 70.00

消融实验

Critic 模型消融

Critic 模型 TSR (%) HSR (%) IP (%) AP (%)
GPT-4o 87.71 86.87 70.75 96.44
Qwen-VL-MAX 85.71 57.63 61.50 91.55

数据规模消融 (训练:测试):

划分比例 Type (%) SR (%) TSR (%) HSR (%)
9:1 99.25 92.21 76.19 84.67
8:2 99.88 95.90 88.20 86.87
7:3 99.46 94.16 83.94 84.79
6:4 99.41 94.05 78.30 84.47

阈值敏感性\(\gamma=4\) 时需 37.28% 干预率获 88.20% TSR;\(\gamma=2\) 时仅需 19.01% 干预率(每条指令平均 0.81 步人类干预)即可达 55.28% TSR,已接近微调模型水平。

关键发现

  • TSR 从 14%→88%:自适应交互在复杂场景下带来质变提升,SR 低导致 TSR 指数级下降,而人类干预关键步骤即可解锁全局成功
  • Prompt-based 交互无效:OS-Atlas-Pro-7B 用 prompt 方式做交互,HSR 为 0%,TSR 仅 9.94%,说明必须通过微调将置信度能力内化
  • 跨模型泛化有效:置信度数据蒸馏到 Qwen2-VL-2B 仍可达 85.09% TSR,说明标注数据向下兼容
  • 少量数据即够:8:2 划分即达最佳效果,置信度集成不需要大量数据
  • 效率接近人类:OS-Kairos 的相对效率 RE 达 86~93%,远优于基线模型的 57~75%

亮点与洞察

  • "知道什么时候停下来问"比"什么都会做"更重要:这是 Agent 从 demo 走向实用的关键能力。在复杂场景下,盲目自主的 TSR 只有 0~17%,而知道何时求助可以达到 88%
  • 置信度作为序列预测的天然副产品:将置信度分数拼接到动作序列末尾,用标准 NTP 训练,既简单又不损害原有能力,是一个非常实用的设计模式
  • Agent-Critic 协作标注范式:用强模型监督弱模型生成自动标注数据,解决了置信度ground truth 从哪来的核心问题,具有很好的通用性
  • 阈值提供了连续的人机控制谱:从全自主到全交互可以平滑调节,不同应用场景可根据安全需求灵活配置
  • 三类过度执行场景的分类:模糊指令 / 意外中断 / 环境劫持,为 GUI Agent 安全性研究提供了清晰的问题框架

局限性 / 可改进方向

  1. Critic 模型依赖 GPT-4o:置信度标注质量高度依赖 Critic 能力,换用 Qwen-VL-MAX 后 HSR 从 86.87% 降到 57.63%。未来可探索自监督或 RL 方式获取置信度信号
  2. 场景覆盖有限:仅覆盖三类典型复杂场景(12 个 APP、12 个主题),真实世界的长尾场景远多于此
  3. 人类干预假设理想化:评估中使用 ground truth 或 GPT-4o 模拟人类干预,实际场景中人类反馈可能不准确或延迟
  4. 仅在移动端验证:论文仅在 Android 手机端评估,未验证在 Web 端和桌面端的泛化性
  5. 置信度校准问题:未分析置信度分数是否真正校准(score=3 是否意味着 60% 的正确率),可能存在过度/不足自信的问题
  6. 可考虑动态阈值:当前阈值 \(\gamma\) 全程固定,实际可根据任务复杂度或历史表现动态调整

相关工作与启发

  • GUI Agent 线路:AppAgent (prompt-based) → Auto-UI (推理增强) → OS-Atlas (grounding 增强) → OS-Kairos (自适应交互),是能力提升的一条清晰演进路线
  • 能力探测方向:从静态 benchmark 评估(AITW、AndroidControl)到动态置信度探测,是评估范式的重要进化
  • 对其他 Agent 系统的启发:置信度驱动交互不限于 GUI Agent,任何需要人机协作的 Agent 场景(代码生成、自动驾驶决策、医疗诊断辅助)都可借鉴"高置信自主、低置信求助"的设计思路
  • 与 RLHF 的联系:Critic 模型角色类似 reward model,但不走 RL 路线而是直接 SFT,更简单高效

评分

  • 新颖性: ⭐⭐⭐⭐ 置信度驱动的自适应 GUI 交互是一个自然但被忽视的切入点,Agent-Critic 协作标注范式有通用价值,但核心技术(SFT + 阈值判断)相对直接
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3 个数据集 + 真实设备动态评估 + 6 项消融(Critic 模型 / 数据规模 / 模型规模 / 阈值 / 交互范式 / prompt-based 对比),非常全面
  • 写作质量: ⭐⭐⭐⭐ 问题分类(三类过度执行场景)清晰,Pilot 实验有说服力,整体逻辑通顺;公式表述有些冗余
  • 价值: ⭐⭐⭐⭐⭐ 直击 GUI Agent 实际部署的核心痛点(安全性),88% TSR vs 14% 的提升有强说服力,阈值控制的灵活性对工业落地友好