跳转至

Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

会议: NeurIPS 2025
arXiv: 2505.15277
代码: 有
领域: Agent
关键词: Process Reward Model, Web Agent, Checklist-based Evaluation, Step-level Reward, 网页导航

一句话总结

提出首个针对网页导航的过程奖励模型 Web-Shepherd,通过检查清单分解任务目标为可评估的子目标,3B/8B 模型在轨迹准确率上碾压 GPT-4o(85% vs 10%),同时成本仅为 1/10,使网页 Agent 的强化学习和推理时搜索变得实际可行。

研究背景与动机

  1. 领域现状:MLLM 驱动的网页导航代理存在可靠性问题,容易陷入重复操作陷阱,难以进行跨多步的目标导向规划。
  2. 现有痛点:① 二值奖励(成功/失败)信号稀疏,学习效率低;② 用 GPT-4o 作评估器成本高昂(评估 812 个查询需 $14,000,40 小时 A100),不适合实际部署。
  3. 核心矛盾:数学推理已有成功的 PRM(过程奖励模型),但网页导航完全缺乏专门训练的 PRM。且 ORM 不适用——用户不能在多次预订机票失败后退款。
  4. 本文要解决什么:① 构建网页导航专用 PRM;② 创建训练数据和评估基准;③ 实现低成本高精度的逐步奖励评估。
  5. 切入角度:用检查清单(checklist)将高层用户指令分解为结构化子目标,使逐步奖励评估更可靠、更可解释。
  6. 核心 idea 一句话:检查清单子目标分解 + NTP 训练的逐步奖励模型 = 低成本高精度的网页 Agent PRM。

方法详解

整体框架

两阶段架构:① 检查清单生成——将用户指令分解为 3-5 个子目标;② 基于检查清单的奖励模型——对每步动作评估各子目标完成度,输出连续奖励分数和文本反馈。

关键设计

  1. 检查清单生成(Checklist Generation):
  2. 做什么:将高层用户指令自动分解为可评估的中间里程碑 \((g_1, g_2, \cdots, g_k)\)
  3. 核心思路:采用粗粒度子目标(如将"filter A + filter B"抽象为"filtering"),减轻对特定网站的偏见和对动作顺序的敏感性
  4. 设计动机:细粒度检查项会导致跨策略泛化差,粗粒度(3-5 项)与任务复杂度对应,能适应不同执行路径

  5. 基于检查清单的奖励建模:

  6. 做什么:以 NTP 目标训练模型同时生成反馈 \(F\) 和判断 \(J\)
  7. 核心思路:\(r_k(o,a) = \frac{1}{L}\sum_l [P(\text{"Yes"}) + 0.5 \times P(\text{"In Progress"})]\),最终奖励 \(r(o,a) = \frac{1}{K}\sum_k r_k(o,a)\)。通过 Verbalizer 从 logits 提取软概率
  8. 设计动机:连续奖励比二值奖励提供更精细的学习信号;生成反馈提升可解释性

  9. WebPRM Collection 数据构建:

  10. 做什么:构建 40K 逐步偏好对的大规模标注数据集
  11. 核心思路:专业标注者收集三个难度级别(易≈5步/中≈9步/难≈20步)的任务,检查清单用 GPT-4o 生成后人工验证,拒绝动作从 5 个策略采样候选中选取
  12. 设计动机:同时发布 WebRewardBench——首个网页导航 PRM 元评估基准,加速后续研究

损失函数 / 训练策略

NTP 损失 \(\mathcal{L} = -\sum_t \log P_\theta(y_t|y_{<t},C,o,a)\),其中 \(y=[F;J]\)。基础模型 Qwen2.5-3B/Qwen3-8B,LoRA 微调 3 epochs。

实验关键数据

主实验(WebRewardBench)

模型 Mind2Web MRR WebArena 轨迹准确率 跨域准确率
GPT-4o(文本+图像+清单) 62.4 10.0% 6.6%
Qwen-2.5-VL-72B 52.9 0.0% 2.5%
Web-Shepherd (3B) 87.6 60.0% 47.1%
Web-Shepherd (8B) 88.3 85.0% 61.2%

8B 模型轨迹准确率 85%,碾压 GPT-4o 的 10%。

消融实验(WebArena-lite 树搜索)

政策 奖励模型 成功率 提升
GPT-4o-mini 无搜索 23.64% -
GPT-4o-mini GPT-4o-mini PRM 24.24% +0.6%
GPT-4o-mini Web-Shepherd (8B) 34.55% +10.9%
GPT-4o 无搜索 31.52% -

关键发现

  • Web-Shepherd 将弱策略(GPT-4o-mini)提升到超过强策略(GPT-4o):34.55% > 31.52%
  • 成本革命:比 GPT-4o 快 10 倍、便宜 10 倍,使网页 Agent 的 RL 和树搜索实际可行
  • 检查清单是关键:消融显示去掉检查清单后所有模型轨迹准确率大幅下降
  • 多模态输入的反直觉发现:加入图像有时反而引入噪声降低性能
  • 跨域泛化:在完全外域数据(WorkArena)上仍有 +6.37% 提升

亮点与洞察

  • 首个网页导航 PRM:填补了关键空白,使 RL 在网页 Agent 中变得实际可行
  • 检查清单的结构化评估:将主观评价转为结构化子目标检查,大幅提升可靠性和可解释性
  • 完整的数据+基准生态:WebPRM Collection (40K) + WebRewardBench 加速后续研究

局限性 / 可改进方向

  • 检查清单生成依赖 GPT-4o,高质量清单的获取成本仍较高
  • 实验主要在模拟环境(WebArena-lite),真实复杂网页验证不足
  • 40K 标注数据规模相比数学推理 PRM 仍显不足
  • 逐步评估所有候选动作在极长轨迹下的可扩展性需进一步验证

相关工作与启发

  • vs GPT-4o-as-judge: 成本 \(14K/40h vs ~\)1.4K/4h,精度 10% vs 85%,全方位碾压
  • vs 数学推理 PRM: 网页导航的检查清单设计和多模态观察处理是区别于数学 PRM 的创新点
  • vs ORM: ORM 只看最终结果,不适用于不可逆操作的网页场景(如预订机票),PRM 可在过程中纠错

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个网页导航 PRM,检查清单+数据+基准三位一体,填补关键空白
  • 实验充分度: ⭐⭐⭐⭐ 三场景覆盖+树搜索验证+消融完整,但缺真实复杂网页验证
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,逐步奖励计算过程直观,动机充分
  • 价值: ⭐⭐⭐⭐⭐ 10 倍成本/速度优势直接解决部署瓶颈,对网页 Agent 研究有基础性推动