LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News¶

会议: ICLR 2026
arXiv: 2602.13543
代码: livenewsbench.com
领域: LLM Agent
关键词: LLM Web Search, Benchmark, Agentic Search, 新闻问答, 多跳搜索

一句话总结¶

提出 LiveNewsBench，一个定期更新的、基于新鲜新闻事件自动生成 QA 对的基准，用于评估 LLM 代理式网页搜索能力，有效隔离了模型内部记忆与真实搜索能力。

研究背景与动机¶

当前评估 LLM 搜索能力面临一个核心困难：如何将外部搜索的贡献与模型内部记忆的世界知识区分开来。由于 SOTA LLM 在海量文本上预训练，它们已经编码了大量事实知识。当基准使用静态问题时，模型可能仅靠记忆就能正确回答，而非真正依赖搜索。

现有基准的三大缺陷：

学术推理基准（如 HLE）：主要测量领域知识和推理能力，而非搜索行为本身。例如 GPT-5 启用搜索后在 HLE 上仅从 24.8% 提升到 30.7%
静态事实 QA 基准（如 SimpleQA、BrowseComp、TriviaQA）：模型无需搜索即可达到高准确率（SimpleQA 62.5%，TriviaQA 82.9%），无法有效评估搜索能力
时间敏感 QA 基准（如 FreshQA、SealQA）：虽然答案会变化，但问题固定不变，强模型常通过推理或部分记忆就能回答
Deep Research 基准：使用主观评价标准（完整性、洞察力等），缺乏可验证的事实性答案

方法详解¶

整体框架¶

LiveNewsBench 的自动化数据构建流程包含两个主要组件：

新闻文章检索：从 Wikipedia 当前事件存档获取种子新闻事件，通过搜索引擎检索相关文章
QA 对生成：从文章集群中生成问答对，经过自动化和人工验证

关键设计¶

新闻检索流程：

从 Wikipedia Current Events Archive 收集全球重大新闻事件作为种子
用 GPT-4.1 将事件摘要改写为搜索查询
通过 Brave Search API 检索相关新闻 URL，限制约 100 家知名媒体的白名单
设定 14 天时间窗口（事件前 3 天到后 11 天）
通过 archive.today 下载存档版本确保稳定性和可重现性
用 GPT-4.1 验证文章与事件的相关性，过滤后每个事件平均 5.3 篇文章

QA 对生成与验证：

使用 GPT-5.1 Thinking 从文章集群生成 QA 对，要求引用多篇文章（多跳）
自一致性过滤：将问题和文章独立提供给 GPT-5.1 推导答案，仅保留两次答案一致的 QA 对
指南遵守验证：用改写后的指南再次请 GPT-5.1 验证 QA 对是否符合所有标准
人工验证子集：原作者审核 QA 对，约拒绝 15% 通过自动验证的样本；独立 NLP 研究者验证达 92% 一致率

数据划分：基于新闻事件日期进行时间序列划分——过去两个月为测试集（340 样本），第三个月为验证集（170 样本），更早的为训练集（600+）。人工验证子集包含 200 个样本。

评估框架¶

采用自定义 ReAct 风格代理框架，支持三种动作：

Search：发出搜索查询，返回 top-10 结果（标题、URL、摘要）
Visit：访问搜索结果中的网页，返回全文
Finish & Answer：产出最终答案

标准配置：最多 5 次搜索查询、5 次网页访问。

实验关键数据¶

主实验：无互联网对比¶

模型	LiveNewsBench (%)	FreshQA (%)	SealQA-Hard (%)
GPT-5.2	21.5	72.2	31.9
Gemini 3 Pro	20.5	74.3	46.5
GPT-4.1	14.0	65.7	26.8
Claude 4.5 Sonnet	13.0	70.8	23.2
DeepSeek V3.2 Thinking	10.0	61.0	31.5

SOTA 模型在 FreshQA/SealQA 上无搜索即可达到 60-74% 准确率，但在 LiveNewsBench 上仅 10-21.5%，说明本基准有效抵抗记忆化。

搜索代理评估（人工验证测试集）¶

方法	推理模型	搜索次数	访问次数	准确率
DeepSeek V3.2 Thinking	✓	3.3±1.3	2.6±1.4	84.5%
DeepSeek V3.2 (No Think)	✗	3.4±1.2	2.6±1.3	83.0%
Claude Sonnet 4.5	✗	2.9±1.1	1.3±1.3	82.0%
GPT-5.2	✓	2.9±1.1	1.8±1.3	74.0%
GPT-5.2 Official API	✓	N/A	N/A	90.0%
Llama 3.1 8B	✗	3.9±1.1	0.3±1.0	11.0%

消融实验：搜索预算影响¶

模型	Budget=1	Budget=3	Budget=5	Budget=7	提升(1→7)
DeepSeek V3.2 Thinking	48.5%	80.5%	84.5%	84.5%	+36.0%
DeepSeek V3.2 (No Think)	20.0%	79.0%	83.0%	84.5%	+64.5%
Claude Sonnet 4.5	53.5%	79.0%	82.0%	67.0%	+13.5%
GPT-5.2	62.5%	72.5%	74.0%	74.5%	+12.0%

关键发现¶

记忆化有限：关闭搜索后准确率下降 17%-74.5%（绝对值），证明基准对搜索能力的有效测量
多跳特性明确：搜索预算从 1 增到 7 时，所有模型均有显著提升，开源模型受益更大
工具调用能力影响显著：Kimi K2 Thinking 44% 的样本无法正确调用搜索工具，而 Claude/DeepSeek 仅 0.5%
模型更依赖搜索摘要而非全文：所有模型搜索次数均超过网页访问次数
搜索实现影响性能：GPT-5.2 官方 API 比本地框架高 16%，但 Claude API 反而低 42%

亮点与洞察¶

自动化管线的可扩展性：整个构建成本约 $700，承诺每季度更新，解决了传统基准依赖人工标注的瓶颈
记忆-搜索解耦：通过使用训练截止日期之后的新闻事件，有效分离了模型内部知识和搜索行为
强区分度：准确率范围从 11% 到 90%，对不同模型和搜索框架有很强的区分力
训练数据潜力：提供大规模开源训练集，适合用 RLVR 训练代理式搜索模型

局限性 / 可改进方向¶

尽管使用新鲜新闻，SOTA 模型仍可通过世界知识和推理猜对部分问题（3.5%-21.5%），完全消除记忆化仍困难
仅关注简短事实性答案，未覆盖需要长篇研究报告的场景
依赖 Wikipedia Current Events Archive 作为种子，可能遗漏非重大但有评估价值的事件
评估成本仍然较高（需调用搜索 API 和 LLM），限制了大规模评估
未来计划扩展到时间敏感问题（答案随事件发展而变化）

评分¶

新颖性: ⭐⭐⭐⭐ — 首个同时满足定期更新、自动化生成、抗记忆化、客观评估的搜索基准
技术深度: ⭐⭐⭐ — 管线设计精巧但技术贡献偏工程
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 13 个模型、多种搜索预算、全面消融分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，实验呈现详尽
实用性: ⭐⭐⭐⭐⭐ — 填补了搜索评估的重要空白，对社区有直接价值
综合评分: ⭐⭐⭐⭐ (8/10)