OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents¶

会议: ACL 2025 arXiv: 2503.16465 代码: https://github.com/Wuzheng02/OS-Kairos 领域: LLM Agent / GUI 自动化 关键词: GUI Agent, 置信度驱动交互, 人机协作, 过度执行, 自适应交互, 协作探测框架

一句话总结¶

提出 OS-Kairos，通过协作探测框架标注每步置信度分数并微调进基座模型，使 GUI Agent 能在每步预测置信度、自主决定执行或请求人类干预，在复杂场景下任务成功率 (TSR) 从 OS-Atlas-Pro-7B 的 14.29% 提升到 88.20%，在 AITZ 和 Meta-GUI 基准上也有 24~87% 的绝对提升。

研究背景与动机¶

领域现状：MLLM 驱动的 GUI Agent（如 OS-Atlas、Auto-UI、AppAgent）已能在移动/桌面环境完成截图分析和动作预测，在简单 GUI 任务上取得了不错性能。现有工作主要关注 grounding 能力（SeeClick、OS-Atlas）和推理能力（Auto-UI、AITZ）的提升。
核心痛点——过度执行 (Over-execution)：现有 GUI Agent 完全自主运行，不评估动作置信度，遇到不确定情况也继续盲目执行，导致不可逆错误。Pilot 实验显示，Qwen2-VL-7B 在复杂场景 TSR 为 0%，OS-Atlas-Pro-7B 仅 17%。
三类典型复杂场景：(1) 模糊指令——用户指令缺乏关键信息（如购物未指定尺码、账号登出场景）；(2) 意外中断——模型幻觉和快捷预测导致偏离正确轨迹；(3) 环境劫持——弹窗劫持、网络断连、权限请求等外部干扰。
现有解决方案的不足：Meta-GUI 提出了对话式引导，但需要人工标注每个复杂步骤，严重限制可扩展性。Prompt-based 交互方式在 OS-Atlas-Pro-7B 上 HSR 为 0%，形同虚设。完全依赖每步人类干预虽可提升到 TSR 62%，但不现实。
切入角度：将置信度评分能力直接集成到基座模型中，使 Agent 具备"自知之明"——知道何时该自主行动、何时该停下来寻求帮助。
核心 idea：两阶段方案——先用 GPT-4o 作为 Critic 自动标注探测 Agent 每步的置信度分数（协作探测），再将置信度分数与动作预测联合训练进模型（置信度驱动交互），部署时通过阈值控制交互灵敏度。

方法详解¶

整体框架¶

OS-Kairos 的 pipeline 分三步： 1. 指令收集：从公开数据集+人工设计收集复杂指令，用 GPT-4 扩增多样性，覆盖中英文、12 个 APP、12 个主题 2. 协作探测框架 (Collaborative Probing)：用 Agent-Critic 协作范式，在真实手机设备上自动生成带置信度标注的高质量轨迹 3. 置信度驱动交互 (Confidence-driven Interaction)：将标注数据微调进基座模型，使模型同时输出动作和置信度

关键设计 1：协作探测框架 (Collaborative Probing Framework)¶

做什么：自动为探测 Agent（OS-Atlas-Pro-7B）在每个交互步骤标注 1-5 分的置信度分数，同时生成高质量 GUI 轨迹数据
核心思路：Agent-Critic 协作范式。Agent（OS-Atlas-Pro-7B）负责预测动作，Critic（GPT-4o + 布局解析模型）负责评分和监督：
Agent 预测当前步动作 \(a_t^p\)
Critic 根据截图、计划表、历史轨迹综合评估，输出 1-5 分的 \(\text{score}_t\)
若 \(\text{score}_t = 5\)，说明 Agent 正确，执行 Agent 动作
若 \(\text{score}_t < 5\)，Critic 提供修正动作 \(a_t^c\) 来纠正并继续探测
Critic 同时监控计划表进度，判断指令是否完成
设计动机：(1) 连接真实手机设备（非模拟器），覆盖商业 APP（如小红书有保护机制）；(2) GPT-4o 作为当前最强多模态模型，具备可靠的判断能力；(3) 通过 Agent-Critic 协作实现自动化标注，避免人工逐步标注的高成本
数据精炼：验证并精化轨迹，确保动作与置信度分数一致。分数为 5 的步骤集中在常规操作（打开 APP、点击搜索栏），而复杂步骤的分数显著下降

关键设计 2：置信度驱动交互 (Confidence-driven Interaction)¶

做什么：将置信度评分能力集成进 GUI Agent，使其在每步同时输出动作和置信度，并根据置信度自适应决定是否请求人类干预
核心思路：
训练：将动作预测和置信度分数拼接为一个序列，用标准 next-token prediction 训练：\(\mathcal{L} = \sum_{i=1}^{N} \mathcal{P}_\theta((a_t || \text{score}_t)^i | P_p(s_t, \tau_i, h_{t-1}, (a_t || \text{score}_t)^{<i}))\)
推理：引入阈值 \(\gamma\)，当 \(\text{score}_t < \gamma\) 时触发人类干预，否则自主执行
设计动机：(1) 拼接序列训练比多任务训练更稳定，不损害原有动作预测能力；(2) 阈值机制提供灵活性——\(\gamma\) 最小值 = 全自主，\(\gamma\) 最大值 = 全交互，中间值 = 自适应；(3) 置信度分数对人类用户提供了可解释的决策依据

训练策略¶

基座模型：OS-Atlas-Pro-7B
8 epochs，学习率 1e-5，80/20 划分训练/测试
默认阈值 \(\gamma = 4\)
置信度标注使用 GPT-4o 作为 Critic，布局解析用 ResNet18（OCR 检测）+ ConvNextTiny（OCR 识别）

实验关键数据¶

主实验：复杂场景 zero-shot 对比¶

模型	Type (%)	SR (%)	TSR (%)
Qwen2-VL-7B	43.19	18.94	0.00
OS-Atlas-Pro-7B	97.69	59.12	17.00
GPT-4o (API)	90.07	76.35	39.13
Qwen-VL-MAX (API)	92.21	46.89	29.81
OS-Kairos	99.88	95.90	88.20

跨基准 zero-shot 结果¶

基准	OS-Atlas-Pro-7B SR/TSR	OS-Kairos SR/TSR
复杂场景	61.36 / 14.29	95.90 / 88.20 (+73.91)
AITZ	58.32 / 11.15	87.54 / 24.51 (+24.51)
Meta-GUI	84.27 / 57.29	96.36 / 87.71 (+87.29)

真实设备动态评估¶

模型	实际步数	相对效率 RE (%)	TSR (%)
GPT-4o	302	75.83	36.00
OS-Atlas-Pro-7B	359	63.79	26.00
OS-Kairos (GPT-4o辅助)	245	93.47	32.00
OS-Kairos (人类辅助)	265	86.42	70.00

消融实验¶

Critic 模型消融：

Critic 模型	TSR (%)	HSR (%)	IP (%)	AP (%)
GPT-4o	87.71	86.87	70.75	96.44
Qwen-VL-MAX	85.71	57.63	61.50	91.55

数据规模消融 (训练:测试)：

划分比例	Type (%)	SR (%)	TSR (%)	HSR (%)
9:1	99.25	92.21	76.19	84.67
8:2	99.88	95.90	88.20	86.87
7:3	99.46	94.16	83.94	84.79
6:4	99.41	94.05	78.30	84.47

阈值敏感性：\(\gamma=4\) 时需 37.28% 干预率获 88.20% TSR；\(\gamma=2\) 时仅需 19.01% 干预率（每条指令平均 0.81 步人类干预）即可达 55.28% TSR，已接近微调模型水平。

关键发现¶

TSR 从 14%→88%：自适应交互在复杂场景下带来质变提升，SR 低导致 TSR 指数级下降，而人类干预关键步骤即可解锁全局成功
Prompt-based 交互无效：OS-Atlas-Pro-7B 用 prompt 方式做交互，HSR 为 0%，TSR 仅 9.94%，说明必须通过微调将置信度能力内化
跨模型泛化有效：置信度数据蒸馏到 Qwen2-VL-2B 仍可达 85.09% TSR，说明标注数据向下兼容
少量数据即够：8:2 划分即达最佳效果，置信度集成不需要大量数据
效率接近人类：OS-Kairos 的相对效率 RE 达 86~93%，远优于基线模型的 57~75%

亮点与洞察¶

"知道什么时候停下来问"比"什么都会做"更重要：这是 Agent 从 demo 走向实用的关键能力。在复杂场景下，盲目自主的 TSR 只有 0~17%，而知道何时求助可以达到 88%
置信度作为序列预测的天然副产品：将置信度分数拼接到动作序列末尾，用标准 NTP 训练，既简单又不损害原有能力，是一个非常实用的设计模式
Agent-Critic 协作标注范式：用强模型监督弱模型生成自动标注数据，解决了置信度ground truth 从哪来的核心问题，具有很好的通用性
阈值提供了连续的人机控制谱：从全自主到全交互可以平滑调节，不同应用场景可根据安全需求灵活配置
三类过度执行场景的分类：模糊指令 / 意外中断 / 环境劫持，为 GUI Agent 安全性研究提供了清晰的问题框架

局限性 / 可改进方向¶

Critic 模型依赖 GPT-4o：置信度标注质量高度依赖 Critic 能力，换用 Qwen-VL-MAX 后 HSR 从 86.87% 降到 57.63%。未来可探索自监督或 RL 方式获取置信度信号
场景覆盖有限：仅覆盖三类典型复杂场景（12 个 APP、12 个主题），真实世界的长尾场景远多于此
人类干预假设理想化：评估中使用 ground truth 或 GPT-4o 模拟人类干预，实际场景中人类反馈可能不准确或延迟
仅在移动端验证：论文仅在 Android 手机端评估，未验证在 Web 端和桌面端的泛化性
置信度校准问题：未分析置信度分数是否真正校准（score=3 是否意味着 60% 的正确率），可能存在过度/不足自信的问题
可考虑动态阈值：当前阈值 \(\gamma\) 全程固定，实际可根据任务复杂度或历史表现动态调整

评分¶

新颖性: ⭐⭐⭐⭐ 置信度驱动的自适应 GUI 交互是一个自然但被忽视的切入点，Agent-Critic 协作标注范式有通用价值，但核心技术（SFT + 阈值判断）相对直接
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3 个数据集 + 真实设备动态评估 + 6 项消融（Critic 模型 / 数据规模 / 模型规模 / 阈值 / 交互范式 / prompt-based 对比），非常全面
写作质量: ⭐⭐⭐⭐ 问题分类（三类过度执行场景）清晰，Pilot 实验有说服力，整体逻辑通顺；公式表述有些冗余
价值: ⭐⭐⭐⭐⭐ 直击 GUI Agent 实际部署的核心痛点（安全性），88% TSR vs 14% 的提升有强说服力，阈值控制的灵活性对工业落地友好