LiveWeb-IE: A Benchmark For Online Web Information Extraction¶

会议: ICLR 2026 arXiv: 2603.13773 代码: GitHub 领域: 多模态VLM 关键词: 网页信息抽取, 在线评估, 视觉定位, XPath生成, 多模态Agent

一句话总结¶

提出首个面向在线网页的信息抽取（WIE）基准LiveWeb-IE，覆盖文本/图片/超链接等多类数据抽取，并设计Visual Grounding Scraper（VGS）框架，通过模拟人类认知过程——视觉扫描定位区域→精确定位元素→生成XPath——在动态网页上实现鲁棒的信息抽取。

研究背景与动机¶

网页信息抽取（WIE）是从网页中自动提取结构化数据的任务。现有WIE基准（如SWDE、WEIR、PLAtE等）全部基于静态HTML快照构建，存在根本性缺陷：

时效失配：网页布局和结构随时间不断变化，静态快照无法反映当前网页状态
性能不可靠：LLM based wrapper方法在结构演变后的同一网站上F1平均下降超过15%
数据类型单一：现有基准仅关注文本抽取，忽略了图片和超链接抽取需求
复杂度维度缺失：没有系统化的任务复杂度分层

此外，现有WIE方法过度依赖HTML解析。随着网页结构日趋复杂，HTML的冗余性使得从中准确定位信息越来越困难。

方法详解¶

整体框架¶

本文包含两个贡献：（1）LiveWeb-IE基准：面向在线网页的WIE评估基准；（2）VGS方法：Visual Grounding Scraper，模拟人类认知过程的多阶段Agent框架。

关键设计¶

1. LiveWeb-IE基准设计¶

四大特性： - 在线评估：要求WIE系统在评估时直接访问目标URL，处理当前时刻的网页DOM结构 - 多样可靠的网站：15个获得授权的网站，横跨8个领域，经过robots.txt检查、使用条款审核和管理员直接授权 - 多类数据抽取：涵盖文本、图片、超链接三类数据 - 多维任务复杂度：基于属性数量和值的基数定义4个级别

四种任务类型： - Type I：单属性、单值（如"这个教授的邮箱是什么"） - Type II：多属性、单值（如"这个球员的身高和体重"） - Type III：单属性、列表值（如"这个页面上所有论文标题"） - Type IV：多属性、列表值（如"所有产品的名称和价格"）

数据构建流程：网站选择 → 页面分组（按布局聚类） → 数据标注 → 人工交叉验证。最终包含342个查询、97个唯一属性、46个页面组。

内容稳定性设计：查询针对事实性信息（如2022年世界杯决赛比分），即使网页布局变化答案本身不变，保证基准长期有效。

2. VGS（Visual Grounding Scraper）框架¶

VGS模拟人类在网页上查找信息的认知过程，通过四个阶段逐步缩小观察空间：

阶段1：属性识别。用LLM将自然语言查询分解为结构化的目标属性集合： $$\hat{\mathcal{A}} = \text{LLM}(I_a, Q)$$

阶段2：视觉定位。将网页渲染为垂直区域序列（固定宽高的截图）。对每个属性，用VLM在区域序列中定位相关区域： $$r'_i = \text{VLM}(I_g, \mathcal{R}, \hat{a}_i)$$ 关键价值在于大幅缩减观察空间。

阶段3：元素精确定位。在定位到的区域内精确找到目标值位置。采用两步策略： 1. 生成候选边界框（文本属性通过VLM扫描，非文本属性通过HTML标签定位） 2. 使用Set-of-Mark Prompting覆盖带编号标记，让VLM选择正确元素子集： $$\mathcal{B}_i^* = \text{VLM}(I_p, r_i^*, \hat{a}_i)$$

阶段4：XPath合成。基于精确定位的边界框找到对应DOM元素，提取局部HTML片段（邻近距离 $d$ 内），VLM结合视觉和结构信息生成可复用XPath： $$x_i = \text{VLM}(I_x, \mathcal{H}_i, \hat{r}_i, \hat{a}_i)$$ 最终XPath集合构成可复用的wrapper。

损失函数 / 训练策略¶

VGS是无需训练的Agent框架，完全基于预训练LLM/VLM的推理能力。评估指标采用Precision、Recall和F1。

实验关键数据¶

主实验¶

LiveWeb-IE上的Overall F1对比：

骨干模型	方法	Type I F1	Type II F1	Type III F1	Type IV F1	Overall F1
GPT-4o	COT	47.54	40.84	8.15	7.24	24.60
GPT-4o	AutoScraper	55.22	42.65	9.10	6.92	26.76
GPT-4o	VGS	65.87	46.35	45.38	41.50	48.58
Gemini-2.5-Flash	VGS	49.02	44.82	42.92	38.13	43.44

开源模型对比（Overall F1）：

骨干模型	COT	AutoScraper	VGS
Qwen-2.5-7B	11.67	16.04	21.74
Qwen-2.5-32B	17.74	21.61	35.05
Gemma-3-27B	16.65	19.04	30.79

消融实验¶

VGS各阶段的贡献： 1. 去除视觉定位：不先定位区域直接精确定位元素，性能显著下降 2. 去除元素精确定位：跳过Set-of-Mark步骤，复杂类型退化明显 3. 使用HTML替代视觉信息：Type III和Type IV的F1大幅下降

关键发现¶

静态→在线的性能鸿沟：LLM方法在结构演变后F1平均下降超过15%，证实在线评估必要性
复杂度差距巨大：VGS的最大优势在复杂类型——GPT-4o+VGS的Type III F1达45.38%，而COT仅8.15%
视觉信息的关键作用：纯HTML方法在复杂网页上失败，VGS通过视觉定位绕过HTML噪声
开源vs闭源差距：即便使用VGS，Qwen-2.5-32B (35.05%) 与GPT-4o (48.58%) 仍有显著差距
Wrapper可复用性：VGS生成的XPath具有跨同类页面的泛化能力

亮点与洞察¶

问题定义创新：首次将WIE评估从离线搬到在线，通过内容稳定性设计解决标注持久性问题
认知启发的设计：VGS四阶段流程完美模拟人类在网页上找信息的过程
视觉+结构双通道：XPath生成巧妙结合视觉定位结果和局部HTML
多类数据覆盖：将图片和超链接纳入WIE评估贴合实际需求

局限性 / 可改进方向¶

基准规模有限：仅15个网站342个查询，更大规模扩展有价值
内容稳定性假设：部分网站可能改版导致无法访问，需定期维护
VLM调用成本高：4个阶段每个都需VLM推理，大规模抽取效率待优化
XPath脆性：生成的XPath仍依赖DOM结构，网页大幅改版后可能失效
动态内容处理不足：JavaScript动态渲染内容的处理未充分讨论

评分¶

新颖性: ⭐⭐⭐⭐ — 在线WIE基准是新颖且有实际价值的贡献
技术质量: ⭐⭐⭐⭐ — VGS设计合理但技术创新点偏工程化
实验充分度: ⭐⭐⭐⭐ — 多骨干模型对比充分，但消融可更系统
实用性: ⭐⭐⭐⭐⭐ — 直接面向真实网页数据采集场景
写作质量: ⭐⭐⭐⭐ — 基准设计动机和方法流程论述清晰
综合: ⭐⭐⭐⭐ (8.0/10)