MMINA: Benchmarking Multihop Multimodal Internet Agents¶

会议: ACL 2025
arXiv: 2404.09992
作者: Shulin Tian, Ziniu Zhang, Liangyu Chen, Ziwei Liu (NTU S-Lab)
代码: github.com/shulin16/MMInA
领域: multimodal_vlm
关键词: Web Agent, 多跳推理, 多模态基准, 网页浏览, 记忆增强

一句话总结¶

提出MMInA基准，包含1,050个人工编写的多跳多模态网页任务（覆盖14个真实动态网站，平均2.85跳），并设计逐跳评估协议和记忆增强方法，揭示当前最强Agent（GPT-4V仅21.8%任务成功率）在多跳网页导航上与人类（96.3%）的巨大差距。

研究背景与动机¶

问题背景¶

构建能自主导航互联网、完成复杂用户任务的具身智能体是AI领域的长期挑战。现实中的网页任务天然具有组合性——用户经常需要跨多个网站收集信息或执行操作（如"订机票→查旅游攻略→租车→订酒店"），这要求Agent具备长程规划和多模态推理能力。

已有工作的不足¶

单跳局限：现有基准（MiniWoB++、WebShop、Mind2Web、WebArena等）绝大多数任务仅涉及单个网站，平均跳数接近1.0，无法评估跨网站的组合推理
文本为主：WebArena、Mind2Web等基准主要依赖文本信息（accessibility tree），忽视了图像在真实网页任务中的关键作用（如"买一件蓝色棉质衬衫"需要视觉判断颜色）
静态环境：多数基准使用静态快照或本地部署的网站，无法反映真实网页的动态变化特性
评估粗粒度：仅使用任务级成功率评估，在多跳场景下往往接近零，难以提供有价值的分析洞察

核心动机¶

填补多跳+多模态+动态真实网站三重空白，建立更贴近真实场景的Internet Agent评估体系。

方法详解¶

关键设计1：基准构建与环境设计¶

环境建模：将网页浏览形式化为部分可观测马尔可夫决策过程 \(\langle S, A, P, R \rangle\)。Agent在每个时间步接收部分观测 \(o_t \in \Omega\)（包含accessibility tree、页面图片、历史动作），执行12种标准化动作之一（点击、滚动、键盘输入等）。

数据集构建： - 1,050个人工编写任务，覆盖购物、旅行、搜索、票务预订等多个领域 - 跨14个真实动态网站，包含2,989个子跳 - 跳数范围1-10跳，平均2.85跳，平均每个任务需12.9个动作 - 标注者采用"极简主义"策略：以全知视角用最短路径完成任务，记录关键URL节点

多模态设计：所有任务均需同时处理视觉和文本信息。环境自动提取accessibility tree的同时识别并下载当前视图中的图片，图片上标注元素ID供Agent引用。

关键设计2：多跳评估协议¶

单跳评估：采用两种方法—— - must_include：关键词匹配，Agent回答必须包含所有预定义关键词 - fuzzy_match：利用GPT-3.5-Turbo进行语义匹配，处理如"gold"与"yellow"的语义等价

多跳评估：维护一个包含各跳完成条件的队列（长度为 \(N+1\)，末尾为END标记）。Agent必须按顺序完成每一跳——仅当当前跳正确完成后才能进入下一跳。同时计算跳成功率（hop SR）和任务成功率（task SR），提供更细粒度的性能分析。

关键设计3：记忆增强方法¶

提出三层记忆系统增强Agent： - 语义记忆（Semantic Memory）：编码在LLM权重中的通用世界知识 - 片段记忆（Episodic Memory）：临时保存当前任务的逐步动作轨迹，作为自回归模型的上下文 - 过程记忆（Procedural Memory）：任务完成后编码完整动作序列和结果，为未来相似任务提供经验回放

核心思路是通过过程记忆回放（replaying past action trajectories）让Agent在执行相似任务时参考历史成功轨迹，显著提升单跳和多跳性能。

实验关键数据¶

实验1：主要基准结果¶

Agent	输入类型	1跳 Hop SR	2-4跳 Hop SR	5+跳 Hop SR	总Hop SR	1跳 Task SR	2-4跳 Task SR	5+跳 Task SR	总Task SR
GPT-4 (文本)	Tree	14.37	30.56	5.23	12.26	14.37	9.09	0	9.34
GPT-4 (文本+描述)	Tree+Caption	38.58	20.70	3.43	13.50	38.58	3.79	0	19.85
DeepSeek-R1-32B (文本+描述)	Tree+Caption	47.68	3.84	4.68	11.11	47.68	0	0	23.07
GPT-4V (多模态)	Tree+Image	42.91	21.23	3.99	13.89	42.91	3.03	0	21.77
Gemini-Pro-Vision (多模态+记忆)	Tree+Image+History	39.17	23.93	4.78	14.27	39.17	10.61	1.13	20.13
人类基线	原始网页	99.02	97.91	93.77	98.43	99.02	95.34	88.12	96.25

实验2：按跳数分解的失败模式分析（GPT-4V）¶

任务总跳数	第1跳SR	第2跳SR	第3跳SR	第4跳SR	第5跳SR	第6跳SR
2跳任务	56.50	11.00	-	-	-	-
3跳任务	22.73	4.55	0.00	-	-	-
4跳任务	12.50	0.00	0.00	0.00	-	-
5跳任务	12.28	1.75	0.00	0.00	0.00	-
6跳任务	16.67	0.00	0.00	0.00	0.00	0.00

关键发现：即使是完全相同语义的第1跳，在总跳数更多的任务中成功率急剧下降（2跳任务56.5% → 6跳任务16.7%）。

实验3：记忆增强效果¶

记忆增强方法在GPT-4V和Gemini-Pro-Vision上均带来显著提升： - GPT-4V + 记忆增强：总Hop SR从13.89%提升至约16%+，2-4跳Task SR从3.03%提升 - Gemini-Pro-Vision + 记忆增强：2-4跳Task SR从1.51%提升至10.61%（约7倍），5+跳Task SR从0提升至1.13%

关键发现¶

早期失败效应：Agent在多跳任务中倾向于在早期跳就失败，且总跳数越多，即使是第1跳的成功率也越低——这不是简单的单跳性能叠加
搜索空间爆炸：多跳任务提示中包含多个网站URL，Agent失败后倾向于切换到其他网站而非重试当前网站，导致过度探索
终止条件失识：Agent常无法识别单跳的终止条件，在已完成的跳中徘徊而非前进
多模态优势：多模态模型整体优于纯文本模型，视觉信息对准确执行网页任务至关重要
推理模型悖论：DeepSeek-R1在单跳任务上表现最优（47.68%），但多跳任务急剧退化（2-4跳仅3.84%），暴露了推理模型在长上下文保持上的弱点

亮点¶

真实动态环境：唯一在持续变化的真实网站上运行的基准，确保高度真实性
多跳设计贴近实际：最多10跳、平均2.85跳的任务设置远超现有基准（多数平均≈1跳），真正考察组合推理能力
逐跳评估协议：突破任务级0/1评估的局限，提供过程性洞察（如发现"早期失败效应"）
重要发现：揭示Agent在多跳场景下的系统性失败模式——不是能力不够而是规划和记忆机制不足
记忆增强方法通用性强：模型无关的轻量方法，可直接应用于任意LMM

局限性¶

网站覆盖有限：仅14个网站，部分网站因反爬机制限制只能使用离线/开源版本，削弱了真实性主张
评估基于URL匹配：以访问正确URL序列作为成功标准，可能遗漏Agent实际完成任务但路径不同的情况
动态网站的可复现性：真实网站内容持续变化，不同时间运行的评估结果难以严格对比
记忆方法评估不充分：记忆增强方法的消融实验和详细分析相对有限，未充分探讨不同记忆长度的影响
缺乏开源模型的深度评估：主要依赖API模型（GPT-4V、Gemini），对开源LMM的评估不够全面
任务分布偏向购物和搜索：可能未充分覆盖其他重要网页交互场景

与相关工作的对比¶

WebArena / VisualWebArena：使用本地部署的静态网站，最多2跳（平均≈1跳）；MMInA使用真实动态网站，最多10跳
WebVoyager：同样使用真实网站但最多4跳（平均2.4跳），且未设计逐跳评估协议
Mind2Web：131个网站但为静态快照、纯文本、单跳，且采用多选题而非开放式动作
GAIA / OpenAGI：多模态通用Agent基准，但不专注于网页浏览环境
CogAgent / SeeAct：Web Agent模型而非基准，在MMInA上表现较弱（CogAgent仅3.35% Task SR）

评分¶

新颖性: ⭐⭐⭐⭐ — 首个同时强调多跳+多模态+动态真实网站的Web Agent基准
实验充分度: ⭐⭐⭐⭐ — 覆盖多类模型和人类基线，逐跳分析深入，但记忆方法实验偏少
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，图表丰富
价值: ⭐⭐⭐⭐ — 揭示了多跳Web任务的核心难点，为Web Agent研究指明方向