HATS: Hardness-Aware Trajectory Synthesis for GUI Agents¶
会议: CVPR 2026
arXiv: 2603.12138
代码: 待确认
领域: 多模态VLM / GUI Agent
关键词: GUI agent, trajectory synthesis, hardness-aware, semantic ambiguity, VLM training
一句话总结¶
提出HATS框架,通过定义动作的"语义模糊度"作为难度信号,以难度驱动探索+对齐引导修复的闭环管线合成高质量GUI轨迹数据,显著提升agent泛化能力。
背景与动机¶
VLM驱动的GUI agent在自动化数字任务中潜力巨大,但对高质量轨迹训练数据有强依赖。现有轨迹合成管线倾向于生成简单、无歧义的交互数据,导致训练出的agent在遇到复杂真实场景时泛化能力不足。核心瓶颈在于:现实GUI操作中大量动作的语义是上下文相关的(如"点击确认"在不同弹窗中含义不同)、顺序相关的(操作顺序影响语义)或视觉模糊的(相似按钮难以区分),这些语义模糊动作恰恰是鲁棒性的关键,但在已有合成数据中严重不足。
核心问题¶
如何系统性地识别和量化GUI操作中的语义模糊性,并据此合成富含挑战性样本的轨迹数据,弥合训练数据和真实任务之间的难度鸿沟?
方法详解¶
整体框架¶
HATS由两个互补模块构成闭环:(1) 难度驱动探索模块负责在数据采集阶段引导agent走向高模糊度交互区域;(2) 对齐引导修复模块对采集到的轨迹进行指令-执行一致性验证和修复。两者形成正向循环——探索为修复提供高难度轨迹,修复反馈更新难度信号指导后续探索。
关键设计¶
- 难度定义与量化: 将"hardness"定义为动作的语义模糊程度,涵盖上下文依赖、序列依赖和视觉模糊三类歧义。通过VLM对动作的置信度和一致性分数进行量化
- 难度驱动探索 (Hardness-Driven Exploration): 在轨迹合成阶段,引导数据收集过程优先探索语义模糊度高的交互区域,而非简单重复已知模式,确保合成数据覆盖现实场景中的高难度操作
- 对齐引导修复 (Alignment-Guided Refinement): 对采收的轨迹进行迭代式验证,检测指令-执行间的语义不一致并修复,保证高难度轨迹数据的标注质量
- 闭环机制: 修复模块的反馈信号动态更新探索模块的难度估计,使系统随训练进展自适应调整采样策略
损失函数 / 训练策略¶
在agent训练阶段采用标准的序列预测损失(next-action prediction),关键改进在数据侧而非损失函数设计。探索模块采用基于难度分数的加权采样策略,修复模块使用VLM自身作为对齐检测器进行指令-轨迹一致性评估。
实验关键数据¶
| 基准环境 | 指标 | HATS | 最优baseline | 提升 |
|---|---|---|---|---|
| 多个GUI benchmark | 任务完成率 | SOTA | 多种合成方法 | 显著优于所有baseline |
- 在多个标准GUI benchmark环境中,HATS训练的agent一致性地超越SOTA基线
- 对比了无难度感知的随机合成、简单过滤等策略,验证了难度驱动探索的必要性
消融实验要点¶
- 移除难度驱动探索模块:agent退化为普通合成管线,泛化能力显著下降
- 移除对齐引导修复:高难度轨迹质量下降,带来噪声标注导致训练不稳定
- 闭环 vs 开环:闭环机制比单次探索+修复效果更好,说明动态难度估计的价值
亮点¶
- 首次从"语义模糊度"角度系统分析GUI agent训练数据的质量瓶颈,insight新颖且通用
- 闭环设计优雅:探索和修复之间通过难度信号形成自适应正反馈
- 问题定义清晰——将data-centric AI的思想引入agent领域,关注数据质量而非模型结构
局限性¶
- 难度信号的计算依赖VLM自身的能力,对于VLM完全陌生的GUI模式,难度估计可能不准
- HTML版论文不可用,部分实验细节(如具体数值对比表)无法核实
- 闭环迭代的计算开销未明确讨论,数据合成的效率和成本需关注
与相关工作的对比¶
- AgentTuning/FireAct等: 这些工作关注agent微调策略或推理范式,HATS则聚焦于训练数据合成质量,两者互补
- CogAgent: CogAgent侧重于GUI视觉编码器设计,HATS在数据侧改进,可与CogAgent等强backbone结合
- OS-Atlas/SeeClick: 关注GUI grounding能力,HATS关注完整轨迹合成中的语义一致性,解决更上游的数据问题
启发与关联¶
- data-centric AI在agent领域的直接应用:与其设计更复杂的模型,不如先把数据做对
- 难度感知采样思想可推广到其他序列决策任务的数据合成
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐