HATS: Hardness-Aware Trajectory Synthesis for GUI Agents¶

会议: CVPR 2026
arXiv: 2603.12138
代码: 待确认
领域: 多模态VLM / GUI Agent
关键词: GUI agent, trajectory synthesis, hardness-aware, semantic ambiguity, VLM training

一句话总结¶

提出HATS框架，通过定义动作的"语义模糊度"作为难度信号，以难度驱动探索+对齐引导修复的闭环管线合成高质量GUI轨迹数据，显著提升agent泛化能力。

背景与动机¶

VLM驱动的GUI agent在自动化数字任务中潜力巨大，但对高质量轨迹训练数据有强依赖。现有轨迹合成管线倾向于生成简单、无歧义的交互数据，导致训练出的agent在遇到复杂真实场景时泛化能力不足。核心瓶颈在于：现实GUI操作中大量动作的语义是上下文相关的（如"点击确认"在不同弹窗中含义不同）、顺序相关的（操作顺序影响语义）或视觉模糊的（相似按钮难以区分），这些语义模糊动作恰恰是鲁棒性的关键，但在已有合成数据中严重不足。

核心问题¶

如何系统性地识别和量化GUI操作中的语义模糊性，并据此合成富含挑战性样本的轨迹数据，弥合训练数据和真实任务之间的难度鸿沟？

方法详解¶

整体框架¶

HATS由两个互补模块构成闭环：(1) 难度驱动探索模块负责在数据采集阶段引导agent走向高模糊度交互区域；(2) 对齐引导修复模块对采集到的轨迹进行指令-执行一致性验证和修复。两者形成正向循环——探索为修复提供高难度轨迹，修复反馈更新难度信号指导后续探索。

关键设计¶

难度定义与量化: 将"hardness"定义为动作的语义模糊程度，涵盖上下文依赖、序列依赖和视觉模糊三类歧义。通过VLM对动作的置信度和一致性分数进行量化
难度驱动探索 (Hardness-Driven Exploration): 在轨迹合成阶段，引导数据收集过程优先探索语义模糊度高的交互区域，而非简单重复已知模式，确保合成数据覆盖现实场景中的高难度操作
对齐引导修复 (Alignment-Guided Refinement): 对采收的轨迹进行迭代式验证，检测指令-执行间的语义不一致并修复，保证高难度轨迹数据的标注质量
闭环机制: 修复模块的反馈信号动态更新探索模块的难度估计，使系统随训练进展自适应调整采样策略

损失函数 / 训练策略¶

在agent训练阶段采用标准的序列预测损失（next-action prediction），关键改进在数据侧而非损失函数设计。探索模块采用基于难度分数的加权采样策略，修复模块使用VLM自身作为对齐检测器进行指令-轨迹一致性评估。

实验关键数据¶

基准环境	指标	HATS	最优baseline	提升
多个GUI benchmark	任务完成率	SOTA	多种合成方法	显著优于所有baseline

在多个标准GUI benchmark环境中，HATS训练的agent一致性地超越SOTA基线
对比了无难度感知的随机合成、简单过滤等策略，验证了难度驱动探索的必要性

消融实验要点¶

移除难度驱动探索模块：agent退化为普通合成管线，泛化能力显著下降
移除对齐引导修复：高难度轨迹质量下降，带来噪声标注导致训练不稳定
闭环 vs 开环：闭环机制比单次探索+修复效果更好，说明动态难度估计的价值

亮点¶

首次从"语义模糊度"角度系统分析GUI agent训练数据的质量瓶颈，insight新颖且通用
闭环设计优雅：探索和修复之间通过难度信号形成自适应正反馈
问题定义清晰——将data-centric AI的思想引入agent领域，关注数据质量而非模型结构

局限性¶

难度信号的计算依赖VLM自身的能力，对于VLM完全陌生的GUI模式，难度估计可能不准
HTML版论文不可用，部分实验细节（如具体数值对比表）无法核实
闭环迭代的计算开销未明确讨论，数据合成的效率和成本需关注

与相关工作的对比¶

AgentTuning/FireAct等: 这些工作关注agent微调策略或推理范式，HATS则聚焦于训练数据合成质量，两者互补
CogAgent: CogAgent侧重于GUI视觉编码器设计，HATS在数据侧改进，可与CogAgent等强backbone结合
OS-Atlas/SeeClick: 关注GUI grounding能力，HATS关注完整轨迹合成中的语义一致性，解决更上游的数据问题

启发与关联¶

data-centric AI在agent领域的直接应用：与其设计更复杂的模型，不如先把数据做对
难度感知采样思想可推广到其他序列决策任务的数据合成

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐