Web-Shepherd: Advancing PRMs for Reinforcing Web Agents¶

会议: NeurIPS 2025
arXiv: 2505.15277
代码: 有
领域: Agent
关键词: Process Reward Model, Web Agent, Checklist-based Evaluation, Step-level Reward, 网页导航

一句话总结¶

提出首个针对网页导航的过程奖励模型 Web-Shepherd，通过检查清单分解任务目标为可评估的子目标，3B/8B 模型在轨迹准确率上碾压 GPT-4o（85% vs 10%），同时成本仅为 1/10，使网页 Agent 的强化学习和推理时搜索变得实际可行。

领域现状：MLLM 驱动的网页导航代理存在可靠性问题，容易陷入重复操作陷阱，难以进行跨多步的目标导向规划。
现有痛点：① 二值奖励（成功/失败）信号稀疏，学习效率低；② 用 GPT-4o 作评估器成本高昂（评估 812 个查询需 $14,000，40 小时 A100），不适合实际部署。
核心矛盾：数学推理已有成功的 PRM（过程奖励模型），但网页导航完全缺乏专门训练的 PRM。且 ORM 不适用——用户不能在多次预订机票失败后退款。
本文要解决什么：① 构建网页导航专用 PRM；② 创建训练数据和评估基准；③ 实现低成本高精度的逐步奖励评估。
切入角度：用检查清单（checklist）将高层用户指令分解为结构化子目标，使逐步奖励评估更可靠、更可解释。
核心 idea 一句话：检查清单子目标分解 + NTP 训练的逐步奖励模型 = 低成本高精度的网页 Agent PRM。

两阶段架构：① 检查清单生成——将用户指令分解为 3-5 个子目标；② 基于检查清单的奖励模型——对每步动作评估各子目标完成度，输出连续奖励分数和文本反馈。

检查清单生成（Checklist Generation）:
做什么：将高层用户指令自动分解为可评估的中间里程碑 $(g_1, g_2, \cdots, g_k)$
核心思路：采用粗粒度子目标（如将"filter A + filter B"抽象为"filtering"），减轻对特定网站的偏见和对动作顺序的敏感性
设计动机：细粒度检查项会导致跨策略泛化差，粗粒度（3-5 项）与任务复杂度对应，能适应不同执行路径
基于检查清单的奖励建模:
做什么：以 NTP 目标训练模型同时生成反馈 $F$ 和判断 $J$
核心思路：$r_k(o,a) = \frac{1}{L}\sum_l [P(\text{"Yes"}) + 0.5 \times P(\text{"In Progress"})]$，最终奖励 $r(o,a) = \frac{1}{K}\sum_k r_k(o,a)$。通过 Verbalizer 从 logits 提取软概率
设计动机：连续奖励比二值奖励提供更精细的学习信号；生成反馈提升可解释性
WebPRM Collection 数据构建:
做什么：构建 40K 逐步偏好对的大规模标注数据集
核心思路：专业标注者收集三个难度级别（易≈5步/中≈9步/难≈20步）的任务，检查清单用 GPT-4o 生成后人工验证，拒绝动作从 5 个策略采样候选中选取
设计动机：同时发布 WebRewardBench——首个网页导航 PRM 元评估基准，加速后续研究

NTP 损失 $\mathcal{L} = -\sum_t \log P_\theta(y_t|y_{<t},C,o,a)$，其中 $y=[F;J]$。基础模型 Qwen2.5-3B/Qwen3-8B，LoRA 微调 3 epochs。

模型	Mind2Web MRR	WebArena 轨迹准确率	跨域准确率
GPT-4o（文本+图像+清单）	62.4	10.0%	6.6%
Qwen-2.5-VL-72B	52.9	0.0%	2.5%
Web-Shepherd (3B)	87.6	60.0%	47.1%
Web-Shepherd (8B)	88.3	85.0%	61.2%

8B 模型轨迹准确率 85%，碾压 GPT-4o 的 10%。