跳转至

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents

会议: ACL 2025
arXiv: 2506.21252
代码: 有 (GitHub)
领域: LLM Agent
关键词: 奖励模型, Agent评测, 多模态Agent, 步骤级奖励, 安全性

一句话总结

Agent-RewardBench 提出了首个面向多模态 Agent 的奖励建模评测基准,覆盖感知/规划/安全 3 个维度、7 个真实场景、1136 个高质量样本,实验发现即使 GPT-4o 也仅达 61.4% 准确率,揭示了 Agent 奖励建模的巨大挑战。

研究背景与动机

  1. 领域现状:多模态 Agent 在网页导航、具身智能等任务上展现潜力,但由于缺乏外部反馈,在自我纠正和泛化上表现不佳
  2. 现有痛点
  3. 模仿学习(SFT)缺乏外部反馈,无法自我纠错
  4. 奖励模型可以提供反馈(引导训练或引导搜索),但没有标准化的评测来选择合适的奖励模型
  5. 现有奖励 benchmark(RewardBench 等)聚焦于聊天/数学/检索,不覆盖 Agent 任务
  6. 核心矛盾:Agent 需要奖励模型提供反馈来改进,但如何评估 MLLM 作为 Agent 奖励模型的能力是空白
  7. 本文要解决什么:构建一个多维度、步骤级、有难度控制的 Agent 奖励建模评测基准
  8. 切入角度:从 Agent 的三大核心能力(感知、规划、安全)出发,覆盖 7 种真实场景
  9. 核心idea一句话:首个系统评估 MLLM 在 Agent 任务中奖励建模能力的 benchmark

方法详解

整体框架

评测框架 → 3 个维度(感知/规划/安全)× 7 个场景(移动/网页/桌面/自动驾驶/Minecraft/虚拟家居/旅行规划)→ 从 10 个模型采样回答 → 两轮过滤(小模型+人工)→ 1136 个高质量 (chosen, rejected) 对 → 评估各 MLLM 的奖励判断准确率。

关键设计

  1. 多维度覆盖 (Perception / Planning / Safety):
  2. 感知维度:评估模型对视觉理解和定位的奖励能力(网页定位 SeeClick + 具身空间感知 MFE-ETP)
  3. 规划维度:评估对序列决策和任务分解的奖励能力(Mind2Web + Minecraft/VirtualHome + TravelPlanner)
  4. 安全维度:评估对攻击场景和风险行为的奖励能力(弹窗攻击 + 具身危险操作 MSSBench)

  5. 步骤级奖励评估 (Step-level Reward):

  6. 做什么:在 Agent 每个中间步骤上采样正负回答,评估奖励模型对单步的判断能力
  7. 设计动机:Agent 任务有明确的步骤划分,单步评估比最终结果评估更精细,更有利于奖励引导训练/搜索

  8. 数据构建流程 (难度控制 + 质量保障):

  9. Response Generation:从 10 个主流模型(5个闭源+5个开源)生成回答
  10. Data Pairing:随机配对正负样本,每个 query 采样 10 对
  11. Difficulty Control:用 3 个小模型双向测试过滤掉过简/过难的样本,保留中等难度
  12. Manual Verification:3 名 AI 研究生人工审核,从 1443 条筛到 1136 条

实验关键数据

主实验

模型 感知Avg 规划Avg 安全Avg 总Avg
GPT-4o 65.9 73.2 39.2 61.4
Gemini-1.5-Pro 73.4 69.6 37.7 61.6
Claude-3.5-Sonnet 73.3 71.2 22.4 57.9
Qwen2-VL-72B 69.1 60.1 34.3 55.3
Llama-3.2-11B 53.5 50.6 38.0 47.8

关键发现

  • 安全维度是最大短板:GPT-4o 感知/规划都不错但安全仅 39.2%,Claude 安全仅 22.4%,说明当前模型的安全奖励建模能力严重不足
  • 最强模型 Gemini-1.5-Pro 总体也仅 61.6%,接近随机猜测水平,说明 benchmark 有很大挑战
  • 开源模型差距明显,Llama-3.2-11B 规划 50.6% ≈ 随机
  • 奖励建模的准确率与下游 Agent 搜索性能正相关,验证了 benchmark 的实际意义

亮点与洞察

  • 首个 Agent 奖励建模 benchmark 填补了重要空白——从模仿学习到反馈学习的关键评测环节
  • 步骤级评估设计合理,更贴近 Agent 实际运行中的奖励需求
  • 安全维度的糟糕表现是重要发现,提示 Agent 安全奖励建模需要专项训练
  • 难度控制方法(小模型预筛 + 人工审核)值得借鉴

局限性 / 可改进方向

  • benchmark 规模相对较小(1136 条),可能不够覆盖长尾场景
  • 安全维度仅包含弹窗攻击和具身危险操作两种,攻击类型较单一
  • 仅评估判别式奖励(chosen vs rejected),未覆盖生成式奖励信号
  • 未探索如何将评测结论转化为实际的奖励模型训练策略

相关工作与启发

  • vs RewardBench: RewardBench 聚焦聊天/数学/检索等文本任务,Agent-RewardBench 首次覆盖多模态 Agent 场景
  • vs AgentBench: AgentBench 评估 Agent 完成任务的能力,Agent-RewardBench 评估奖励模型判断 Agent 行为好坏的能力

评分

  • 新颖性: ⭐⭐⭐⭐ 首个Agent奖励建模benchmark,问题定义有价值
  • 实验充分度: ⭐⭐⭐⭐ 覆盖8个模型、7个场景、3个维度,分析详细
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富
  • 价值: ⭐⭐⭐⭐ 为Agent反馈学习提供关键评测基础设施