跳转至

📚 AI Paper Notes

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents

Agent-RewardBench: Towards a Unified Benchmark for Reward Modeling across Perception, Planning, and Safety in Real-World Multimodal Agents¶

会议: ACL 2025
arXiv: 2506.21252
代码: 有 (GitHub)
领域: LLM Agent
关键词: 奖励模型, Agent评测, 多模态Agent, 步骤级奖励, 安全性

一句话总结¶

Agent-RewardBench 提出了首个面向多模态 Agent 的奖励建模评测基准，覆盖感知/规划/安全 3 个维度、7 个真实场景、1136 个高质量样本，实验发现即使 GPT-4o 也仅达 61.4% 准确率，揭示了 Agent 奖励建模的巨大挑战。

研究背景与动机¶

领域现状：多模态 Agent 在网页导航、具身智能等任务上展现潜力，但由于缺乏外部反馈，在自我纠正和泛化上表现不佳
现有痛点：
模仿学习（SFT）缺乏外部反馈，无法自我纠错
奖励模型可以提供反馈（引导训练或引导搜索），但没有标准化的评测来选择合适的奖励模型
现有奖励 benchmark（RewardBench 等）聚焦于聊天/数学/检索，不覆盖 Agent 任务
核心矛盾：Agent 需要奖励模型提供反馈来改进，但如何评估 MLLM 作为 Agent 奖励模型的能力是空白
本文要解决什么：构建一个多维度、步骤级、有难度控制的 Agent 奖励建模评测基准
切入角度：从 Agent 的三大核心能力（感知、规划、安全）出发，覆盖 7 种真实场景
核心idea一句话：首个系统评估 MLLM 在 Agent 任务中奖励建模能力的 benchmark

方法详解¶

整体框架¶

评测框架 → 3 个维度（感知/规划/安全）× 7 个场景（移动/网页/桌面/自动驾驶/Minecraft/虚拟家居/旅行规划）→ 从 10 个模型采样回答 → 两轮过滤（小模型+人工）→ 1136 个高质量 (chosen, rejected) 对 → 评估各 MLLM 的奖励判断准确率。

关键设计¶

多维度覆盖 (Perception / Planning / Safety):
感知维度：评估模型对视觉理解和定位的奖励能力（网页定位 SeeClick + 具身空间感知 MFE-ETP）
规划维度：评估对序列决策和任务分解的奖励能力（Mind2Web + Minecraft/VirtualHome + TravelPlanner）
安全维度：评估对攻击场景和风险行为的奖励能力（弹窗攻击 + 具身危险操作 MSSBench）
步骤级奖励评估 (Step-level Reward):
做什么：在 Agent 每个中间步骤上采样正负回答，评估奖励模型对单步的判断能力
设计动机：Agent 任务有明确的步骤划分，单步评估比最终结果评估更精细，更有利于奖励引导训练/搜索
数据构建流程 (难度控制 + 质量保障):
Response Generation：从 10 个主流模型（5个闭源+5个开源）生成回答
Data Pairing：随机配对正负样本，每个 query 采样 10 对
Difficulty Control：用 3 个小模型双向测试过滤掉过简/过难的样本，保留中等难度
Manual Verification：3 名 AI 研究生人工审核，从 1443 条筛到 1136 条

实验关键数据¶

主实验¶

模型	感知Avg	规划Avg	安全Avg	总Avg
GPT-4o	65.9	73.2	39.2	61.4
Gemini-1.5-Pro	73.4	69.6	37.7	61.6
Claude-3.5-Sonnet	73.3	71.2	22.4	57.9
Qwen2-VL-72B	69.1	60.1	34.3	55.3
Llama-3.2-11B	53.5	50.6	38.0	47.8

关键发现¶

安全维度是最大短板：GPT-4o 感知/规划都不错但安全仅 39.2%，Claude 安全仅 22.4%，说明当前模型的安全奖励建模能力严重不足
最强模型 Gemini-1.5-Pro 总体也仅 61.6%，接近随机猜测水平，说明 benchmark 有很大挑战
开源模型差距明显，Llama-3.2-11B 规划 50.6% ≈ 随机
奖励建模的准确率与下游 Agent 搜索性能正相关，验证了 benchmark 的实际意义

亮点与洞察¶

首个 Agent 奖励建模 benchmark 填补了重要空白——从模仿学习到反馈学习的关键评测环节
步骤级评估设计合理，更贴近 Agent 实际运行中的奖励需求
安全维度的糟糕表现是重要发现，提示 Agent 安全奖励建模需要专项训练
难度控制方法（小模型预筛 + 人工审核）值得借鉴

局限性 / 可改进方向¶

benchmark 规模相对较小（1136 条），可能不够覆盖长尾场景
安全维度仅包含弹窗攻击和具身危险操作两种，攻击类型较单一
仅评估判别式奖励（chosen vs rejected），未覆盖生成式奖励信号
未探索如何将评测结论转化为实际的奖励模型训练策略

相关工作与启发¶

vs RewardBench: RewardBench 聚焦聊天/数学/检索等文本任务，Agent-RewardBench 首次覆盖多模态 Agent 场景
vs AgentBench: AgentBench 评估 Agent 完成任务的能力，Agent-RewardBench 评估奖励模型判断 Agent 行为好坏的能力

评分¶

新颖性: ⭐⭐⭐⭐ 首个Agent奖励建模benchmark，问题定义有价值
实验充分度: ⭐⭐⭐⭐ 覆盖8个模型、7个场景、3个维度，分析详细
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富
价值: ⭐⭐⭐⭐ 为Agent反馈学习提供关键评测基础设施