Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning in Web Agents¶

会议: ICLR2026
arXiv: 2508.01858
代码: github.com/Gnonymous/Web-CogReasoner
领域: llm_agent
关键词: Web Agent, 认知推理, Bloom分类法, 知识驱动CoT, 课程学习

一句话总结¶

Web-CogReasoner 借鉴 Bloom 教育分类法，将 Web Agent 的能力分解为事实知识、概念知识和程序性知识三层体系，构建结构化的知识驱动 CoT 推理框架，在 Web 导航任务上显著超越现有方法。

背景与动机¶

多模态大模型推动了 Web Agent 发展，但通用领域预训练知识在专业任务中仍存在性能瓶颈
现有知识增强方法缺乏系统性或理论基础
本文从教育学核心理论 Bloom 分类法出发，将学习分为两个阶段：
- Phase 1（知识内容学习）：积累事实知识和概念知识 → 解决"学什么"
- Phase 2（认知过程）：发展程序性知识 → 解决"怎么做"
这映射了人类学习轨迹：先通过教育积累知识，再基于知识和经验学会应用、创新和创造
核心问题：如何系统性地为 Web Agent 注入分层知识，使其具备认知推理能力？

方法详解¶

1. Web-CogKnowledge Framework（知识框架）¶

基于 Bloom 分类法的三层知识体系：

事实知识（Factual Knowledge）： - 从网页内容中提取的具体信息 - 如识别网页元素属性、预测单次交互的直接结果

概念知识（Conceptual Knowledge）： - 网页内容和结构的语义关系与抽象模式 - 如推断界面组件功能、理解网页整体目的和结构

程序性知识（Procedural Knowledge）： - 通过交互完成特定任务的可操作知识 - 如执行目标导向的动作序列、推断用户意图、处理意外中断

2. Web-CogDataset（训练数据集）¶

从 14 个主流真实网站爬取多模态元数据
设计 12 种细粒度、渐进挑战的任务：
- 事实层：元素属性识别、下一页预测、来源元素预测
- 概念层：元素理解、网页理解
- 程序层：用户意图预测、弹窗关闭、单步探索等
数据从感知→理解→行动逐步深入

3. Web-CogBench（评估基准）¶

876 个测试实例，跨 8 种任务
三个认知维度评估：
- 记忆（Memorizing）：评估回忆具体信息的能力（对应事实知识）
- 理解（Understanding）：评估语义解释能力（对应概念知识）
- 探索（Exploring）：评估规划和执行目标导向动作的能力（对应程序性知识）
使用 ROUGE-L、Accuracy、LVM Judge 等多种评估指标

4. Web-CogReasoner 推理框架¶

建模为 POMDP：$P = (S, A, O, K, T, R)$

知识驱动 CoT 推理过程： $$\textbf{Task Prompt} \rightarrow \textbf{Knowledge-driven CoT} \rightarrow \textbf{Plan} \rightarrow \textbf{Action}$$

推理分三层： 1. 事实推理："页面上有什么？" → 识别页面元素和状态 2. 概念推理："这意味什么？" → 推断角色和交互关系 3. 程序推理："如何完成任务？" → 规划目标导向的步骤

基础模型为 Qwen2.5-VL-7B，在 Web-CogDataset 上进行监督微调。

实验关键数据¶

Web-CogBench 综合评估¶

模型	Elem Attr	Next Page	Source Elem	Elem Und	WebPage Und	User Intent	Popup	Step Exp	Overall
Claude Sonnet 4	79.7	93.5	62.5	62.8	54.3	64.7	100	96.8	76.8
Gemini 2.5 Pro	79.8	94.6	84.4	62.6	73.5	51.9	96.6	98.4	80.4
UI-TARs-7B-SFT	63.5	88.0	31.3	48.0	48.0	32.4	25.9	33.9	46.4
Web-CogReasoner	91.4	93.5	87.5	69.2	79.0	61.4	98.3	95.2	84.4

VisualWebBench¶

模型	Perception Avg	Reasoning Avg	Overall Avg
Claude Sonnet 4	80.7	91.2	85.9
UI-TARs-7B-SFT	82.4	89.7	86.0
Web-CogReasoner	79.0	93.6	86.3

课程学习消融实验¶

配置	Memorizing	Understanding	Exploring	Overall
Qwen2.5-VL-7B (Base)	67.6	61.0	77.9	69.8
+ Factual (S1)	85.5 (+17.9)	64.2	60.1	72.1
+ Conceptual (S2)	88.1	75.5 (+11.3)	65.8	78.3
+ Procedural (S3)	90.8	74.1	85.0 (+19.2)	84.4

在线 Web 任务 - WebVoyager 成功率¶

Agent	Overall
Claude Sonnet 4	47.7%
Gemini 2.5 Pro	54.9%
OpenWebVoyager_Max	26.2%
Web-CogReasoner	30.2%

开源模型中最佳，平均步数也最少（4.73 步/成功任务）。

亮点¶

理论基础扎实：从教育学 Bloom 分类法出发，将 Agent 能力分解为可训练的知识层次，有良好的理论指导
结构化知识驱动 CoT：不是简单的 prompt engineering，而是将知识体系嵌入推理过程
课程学习效果显著：消融实验清晰展示每层知识的贡献，整体提升 14.6%
全面的评估体系：Web-CogBench 从记忆/理解/探索三个认知维度系统评估
超越闭源模型：7B 模型在 Web-CogBench 上超越 Claude Sonnet 4 和 Gemini 2.5 Pro
高效执行：在线任务中平均步数最少，说明知识驱动推理减少了冗余探索

局限性 / 可改进方向¶

在线任务（Mind2Web cross-web）上表现不如 Claude/Gemini，泛化到完全未见网站仍有挑战
14 个训练网站的覆盖面可能不够广，难以涵盖所有网页类型
POMDP 建模中未引入显式记忆机制，长序列决策可能受限
未探索与 RL 结合的训练方式（当前仅用 SFT）
知识层次的划分可能过于刚性，实际任务中三种知识往往交织

与相关工作的对比¶

相比 UI-TARs（视觉感知强但认知推理弱）：Web-CogReasoner 在认知任务上大幅领先（84.4% vs 46.4%），说明纯视觉感知不够
相比 OpenWebVoyager（需要在目标网站重新训练）：Web-CogReasoner 仅靠结构化知识即可泛化
相比通用 LVM（Claude/Gemini）：开源 7B 模型在知识密集型任务上具有竞争力
相比 AutoWebGLM 等早期课程学习方法：Web-CogReasoner 的知识体系更系统化

启发与关联¶

Bloom 分类法可推广到其他 Agent 领域（如 GUI Agent、机器人操作）
知识驱动 CoT 的思路可用于其他需要结构化推理的任务
事实→概念→程序的渐进训练策略对多阶段训练有参考价值
Web-CogBench 的认知维度评估方法可启发更好的 Agent 评测设计

评分¶

新颖性: ⭐⭐⭐⭐ (Bloom分类法与Web Agent的结合新颖，但知识注入的思路本身不全新)
实验充分度: ⭐⭐⭐⭐⭐ (4个benchmark、详细消融、组件分析、在线任务评估)
写作质量: ⭐⭐⭐⭐ (结构清晰，但篇幅较长，部分内容可精简)
价值: ⭐⭐⭐⭐ (提供了系统化的Web Agent知识训练方法论，Web-CogBench有实用价值)