Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents¶
会议: ACL 2025
arXiv: 2506.21252
代码: 有 (GitHub)
领域: LLM Agent
关键词: 奖励模型, Agent评测, 多模态Agent, 步骤级奖励, 安全性
一句话总结¶
Agent-RewardBench 提出了首个面向多模态 Agent 的奖励建模评测基准,覆盖感知/规划/安全 3 个维度、7 个真实场景、1136 个高质量样本,实验发现即使 GPT-4o 也仅达 61.4% 准确率,揭示了 Agent 奖励建模的巨大挑战。
研究背景与动机¶
- 领域现状:多模态 Agent 在网页导航、具身智能等任务上展现潜力,但由于缺乏外部反馈,在自我纠正和泛化上表现不佳
- 现有痛点:
- 模仿学习(SFT)缺乏外部反馈,无法自我纠错
- 奖励模型可以提供反馈(引导训练或引导搜索),但没有标准化的评测来选择合适的奖励模型
- 现有奖励 benchmark(RewardBench 等)聚焦于聊天/数学/检索,不覆盖 Agent 任务
- 核心矛盾:Agent 需要奖励模型提供反馈来改进,但如何评估 MLLM 作为 Agent 奖励模型的能力是空白
- 本文要解决什么:构建一个多维度、步骤级、有难度控制的 Agent 奖励建模评测基准
- 切入角度:从 Agent 的三大核心能力(感知、规划、安全)出发,覆盖 7 种真实场景
- 核心idea一句话:首个系统评估 MLLM 在 Agent 任务中奖励建模能力的 benchmark
方法详解¶
整体框架¶
评测框架 → 3 个维度(感知/规划/安全)× 7 个场景(移动/网页/桌面/自动驾驶/Minecraft/虚拟家居/旅行规划)→ 从 10 个模型采样回答 → 两轮过滤(小模型+人工)→ 1136 个高质量 (chosen, rejected) 对 → 评估各 MLLM 的奖励判断准确率。
关键设计¶
- 多维度覆盖 (Perception / Planning / Safety):
- 感知维度:评估模型对视觉理解和定位的奖励能力(网页定位 SeeClick + 具身空间感知 MFE-ETP)
- 规划维度:评估对序列决策和任务分解的奖励能力(Mind2Web + Minecraft/VirtualHome + TravelPlanner)
-
安全维度:评估对攻击场景和风险行为的奖励能力(弹窗攻击 + 具身危险操作 MSSBench)
-
步骤级奖励评估 (Step-level Reward):
- 做什么:在 Agent 每个中间步骤上采样正负回答,评估奖励模型对单步的判断能力
-
设计动机:Agent 任务有明确的步骤划分,单步评估比最终结果评估更精细,更有利于奖励引导训练/搜索
-
数据构建流程 (难度控制 + 质量保障):
- Response Generation:从 10 个主流模型(5个闭源+5个开源)生成回答
- Data Pairing:随机配对正负样本,每个 query 采样 10 对
- Difficulty Control:用 3 个小模型双向测试过滤掉过简/过难的样本,保留中等难度
- Manual Verification:3 名 AI 研究生人工审核,从 1443 条筛到 1136 条
实验关键数据¶
主实验¶
| 模型 | 感知Avg | 规划Avg | 安全Avg | 总Avg |
|---|---|---|---|---|
| GPT-4o | 65.9 | 73.2 | 39.2 | 61.4 |
| Gemini-1.5-Pro | 73.4 | 69.6 | 37.7 | 61.6 |
| Claude-3.5-Sonnet | 73.3 | 71.2 | 22.4 | 57.9 |
| Qwen2-VL-72B | 69.1 | 60.1 | 34.3 | 55.3 |
| Llama-3.2-11B | 53.5 | 50.6 | 38.0 | 47.8 |
关键发现¶
- 安全维度是最大短板:GPT-4o 感知/规划都不错但安全仅 39.2%,Claude 安全仅 22.4%,说明当前模型的安全奖励建模能力严重不足
- 最强模型 Gemini-1.5-Pro 总体也仅 61.6%,接近随机猜测水平,说明 benchmark 有很大挑战
- 开源模型差距明显,Llama-3.2-11B 规划 50.6% ≈ 随机
- 奖励建模的准确率与下游 Agent 搜索性能正相关,验证了 benchmark 的实际意义
亮点与洞察¶
- 首个 Agent 奖励建模 benchmark 填补了重要空白——从模仿学习到反馈学习的关键评测环节
- 步骤级评估设计合理,更贴近 Agent 实际运行中的奖励需求
- 安全维度的糟糕表现是重要发现,提示 Agent 安全奖励建模需要专项训练
- 难度控制方法(小模型预筛 + 人工审核)值得借鉴
局限性 / 可改进方向¶
- benchmark 规模相对较小(1136 条),可能不够覆盖长尾场景
- 安全维度仅包含弹窗攻击和具身危险操作两种,攻击类型较单一
- 仅评估判别式奖励(chosen vs rejected),未覆盖生成式奖励信号
- 未探索如何将评测结论转化为实际的奖励模型训练策略
相关工作与启发¶
- vs RewardBench: RewardBench 聚焦聊天/数学/检索等文本任务,Agent-RewardBench 首次覆盖多模态 Agent 场景
- vs AgentBench: AgentBench 评估 Agent 完成任务的能力,Agent-RewardBench 评估奖励模型判断 Agent 行为好坏的能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个Agent奖励建模benchmark,问题定义有价值
- 实验充分度: ⭐⭐⭐⭐ 覆盖8个模型、7个场景、3个维度,分析详细
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富
- 价值: ⭐⭐⭐⭐ 为Agent反馈学习提供关键评测基础设施