History-Aware Reasoning for GUI Agents¶
会议: AAAI 2026
arXiv: 2511.09127
代码: https://github.com/BigTaige/HAR-GUI
领域: Agent / GUI自动化
关键词: GUI Agent, 短期记忆, 强化学习, 反思学习, 历史感知推理
一句话总结¶
提出 HAR 框架,通过构建反思学习场景、合成纠错指南、设计混合 RL 奖励函数(含 Memory-Augmented Reward),将 GUI Agent 的推理模式从"历史无感知"转变为"历史感知",3B 模型在 AITW/Mind2Web/GUI-Odyssey 等多个 benchmark 上超越更大模型。
背景与动机¶
现有 GUI Agent(如 UI-R1、GUI-R1、InfiGUI-R1)使用 System-2 CoT + RL 增强推理,但存在一个被忽视的关键问题:它们的推理模式是"历史无感知"的——将链式多步交互退化为离散的单屏幕理解,忽略了历史交互上下文中的关键线索。例如在 11 步的长序列任务中,Agent 在第 8 步推理时完全不考虑前 7 步做了什么。这源于基础 MLLM 的内在 CoT 模式,而现有 RL 训练使用推理格式指令仅优化动作预测,不改变推理模式。
核心问题¶
如何让 GUI Agent 在长序列情景推理中具备稳定的短期记忆——即在 System-2 CoT 中显式整合和分析历史交互信息?核心挑战是"历史无感知"推理模式根深蒂固于预训练阶段的 CoT 中,普通 RL 训练无法改变它(仅缩小 pass@k 到 pass@1 的差距)。
方法详解¶
整体框架¶
HAR 包含两个关键训练阶段:(1) GUI 场景热身(SFT 注入领域知识);(2) 从失败中学习(反思 RL 增强短期记忆)。
关键设计¶
- GUI 场景热身(SFT):
- 收集 GUI 理解数据(caption、问答、grounding 等)
- 合成 Action-to-Summary(Act2Sum)数据:用教师模型为每个动作生成目标导向的语义总结,增强动作语义理解
-
System-2 CoT 蒸馏:用 Qwen2.5-VL-72B 为每个样本合成 System-2 推理链,过滤正确样本后用于训练
-
反思学习场景构建:
- 用热身后的模型推理,收集错误样本 \(\mathbb{D}_{his}\)
- 用教师模型为每个错误样本生成最多 3 条纠错指南 \(\mathbb{G}\)(分析错误原因,提供线索但不泄露答案)
-
构建反思格式指令:将错误预测、错误 CoT 和纠错指南一起提供给模型,要求先自述错误(statement)再重新推理
-
混合 RL 奖励函数:
- Format Reward \(r^{format}\):输出是否符合反思格式
- Action Reward \(r^{action}\):对坐标类动作(CLICK),使用多尺度欧几里得距离奖励(归一化坐标距离 + 绝对坐标距离),正确时额外奖励坐标精确度(\(r=1+F_{abs}\)),错误时基于绝对距离给予部分奖励
- Memory-Augmented Reward (MAR) \(r^{memory}\):用 Qwen3-235B 判断 CoT 中是否包含对历史交互的分析。这是关键创新——显式奖励“在推理中考虑了前面做了什么”
- 混合:\(r = r^{format} \times (r^{action} + \gamma \times r^{memory})\),\(\gamma=0.2\)
-
设计优势:相比在指令中强制要求关注历史(GRPO*),MAR 通过 RL 信号让模型自主习得何时需要参考历史
-
Round-2 RL + Task Mixing:Round-1 RL 在反思场景中训练后,Round-2 RL 切换到推理格式指令(对齐推理时用法),同时混合 grounding 任务(TMTS)防止 grounding 能力退化
损失函数 / 训练策略¶
- GRPO 算法进行 RL 优化
- 基于 Qwen2.5-VL-3B-Instruct,LoRA rank=64 alpha=128
- SFT: 1 epoch, lr=5e-6; RL: 2 epochs, lr=2e-6
实验关键数据¶
| Benchmark | 指标 | HAR-GUI-3B | InfiGUI-R1-3B | GUI-R1-3B | UI-R1-3B | Qwen2.5-VL-7B |
|---|---|---|---|---|---|---|
| AITW | SSR (avg) | 70.2 | 67.7 | 65.6 | 59.9 | - |
| Mind2Web | SSR (Cross-Task) | 42.2 | 37.2 | 38.8 | 36.8 | - |
| GUI-Odyssey | SSR (avg) | 62.31 | 50.62 | 48.35 | 46.71 | 58.39 |
| ScreenSpot | Avg | 83.3 | - | - | - | 79.8 |
| ScreenSpot-V2 | Avg | 86.2 | - | - | - | - |
OOD 评估(中文支付宝小程序):HAR-GUI-3B 步骤成功率 76.5%,远超 GUI-R1-3B 的 69.99% 和 Qwen2.5-VL-72B 的 86.91%(3B vs 72B 的差距缩小到 10%)。
消融实验要点¶
- 仅用推理格式 RL(GRPO):推理仍是历史无感知的,性能提升有限
- 在指令中强制要求关注历史(GRPO*):反而导致性能下降,说明不应强制约束而应让模型自主习得
- HAR 的反思场景 + 纠错指南 + MAR:模型自主发展出历史感知推理模式
- 仅用情景推理数据训练 RL 会削弱 grounding 能力,TMTS 有效缓解
- 后训练(post-training)中,HAR-GUI 作为初始化 checkpoint 始终优于 GRPO 和基础 Qwen2.5-VL
亮点¶
- 精准定位问题:发现并系统分析了现有 GUI Agent 的"历史无感知"推理缺陷,连 72B 模型也存在
- Memory-Augmented Reward:直接奖励"CoT 中是否考虑了历史信息",用 RL 信号引导推理模式转变,而非手动约束
- 反思学习范式:通过构建"错误+纠错指南"的反思场景,注入外部领域推理知识,比单纯 RL 探索更有效
- 多尺度坐标奖励:归一化+绝对坐标双尺度奖励,精细化 CLICK 动作的优化
- 3B 模型超 7B+:在 GUI-Odyssey 上超越 Qwen2.5-VL-7B(62.31 vs 58.39)
局限性 / 可改进方向¶
- 依赖 72B 教师模型合成纠错指南和 CoT,蒸馏质量受限于教师模型
- MAR 使用模型判断 CoT 是否包含历史信息,可能存在误判
- 仅在 CLICK-only 场景评估 OOD 泛化,TYPE 等复杂动作未充分验证
- 训练流程相对复杂(SFT + Round-1 RL + Round-2 RL + 后训练)
与相关工作的对比¶
- vs UI-R1/GUI-R1/InfiGUI-R1:这些方法用 RL 增强推理但使用推理格式指令,仅优化动作预测不改变推理模式;HAR 通过反思场景从根本上改变推理模式
- vs UI-TARS:UI-TARS 引入 System-2 推理但未针对性解决短期记忆问题;HAR 的 3B 模型在 ScreenSpot 上超越 UI-TARS-2B
- vs 传统 Agent 框架(ReAct/Reflexion):传统方法依赖手工 prompt 进行反思,HAR 通过训练让模型内在化反思能力
启发与关联¶
- "短期记忆缺陷"可能是所有基于 CoT 的 Agent 的通病——CoT 倾向于就当前状态独立推理而忽略历史上下文
- MAR 的设计思路(RL 奖励推理过程的某种属性)可以推广到其他需要特定推理模式的场景
- 反思学习场景(提供错误+纠错指南进行 RL)是一种有效的知识注入范式
评分¶
- 新颖性: ⭐⭐⭐⭐ 精准识别并解决了 GUI Agent 的历史无感知问题,MAR 设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 涵盖 3 类 benchmark(情景推理/grounding/理解),OOD 评估,消融完整
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,分析有说服力,案例丰富
- 价值: ⭐⭐⭐⭐ 对 GUI Agent 的短期记忆问题提出了有效解决方案,代码开源
补充说明¶
- 该工作的方法论和实验设计对相关领域有参考价值
- 后续工作可在更多场景和更大规模上验证方法的泛化性和可扩展性
- 与近期相关工作的结合(如与 RL/MCTS/多模态方法的交叉)有潜在研究价值
- 建议结合实际应用需求评估该方法的部署可行性和计算效率
- 数据集和评估指标的选择可能影响结论的普适性,需在更多 benchmark 上交叉验证