跳转至

Search Arena: Analyzing Search-Augmented LLMs

会议: ICLR 2026
arXiv: 2506.05334
代码: 项目页 (开源数据集)
领域: 信息检索 / LLM 评估 / 人类偏好
关键词: search-augmented LLM, benchmark, human preference, citation analysis, Chatbot Arena

一句话总结

构建 Search Arena——首个大规模搜索增强 LLM 人类偏好数据集(24069 对话 + 12652 偏好投票,71 种语言),发现用户偏好受引用数量影响(即使引用不支持声明),社区驱动平台比 Wikipedia 更受偏好,搜索增强不降低通用聊天性能但通用 LLM 在搜索场景显著退化。

研究背景与动机

  1. 领域现状:搜索增强 LLM(如 Perplexity、Gemini Search、ChatGPT Search)结合网络搜索和 LLM 推理日益流行。现有评估基准如 SimpleQA(4326 条)和 BrowseComp(1266 条)是小规模、单轮、英语、事实查询导向的。
  2. 现有痛点
  3. 覆盖不足:真实用户查询中事实查询仅占 ~19%,大部分需要信息综合、分析、推荐、创意等综合能力
  4. 偏好理解缺失:不清楚用户在搜索场景中偏好什么——引用的作用?源站的影响?推理的价值?
  5. 跨场景评估空白:搜索 LLM 在通用场景表现如何?通用 LLM 在搜索场景又如何?
  6. 核心矛盾:搜索增强 LLM 的评估需要大规模、真实、多样的交互数据,但现有数据集是专家构建的小规模数据
  7. 核心 idea:基于 Chatbot Arena 平台众包收集真实用户与搜索 LLM 的交互+偏好,进行系统分析

方法详解

整体框架

Search Arena 平台(Chatbot Arena 的搜索 tab)→ 匿名并排展示两个搜索模型回答 → 用户投票偏好 → 收集 7 周数据:24069 对话 + 12652 偏好投票 → Bradley-Terry 模型建模偏好 → 多维度分析

关键设计

  1. 数据收集与规模
  2. 做什么:众包真实用户的搜索增强 LLM 交互数据
  3. 规模:24069 对话,12652 偏好投票,11650 用户,136 个国家,71 种语言(英语 58.3%,俄语 11.8%,中文 7.0%),13 个模型
  4. 包含完整系统追踪:检索 URL、推理 trace、模型响应、多轮对话历史
  5. 22.4% 多轮对话,11% 多语言查询

  6. 用户意图分类体系

  7. 做什么:定义搜索增强对话场景的 9 种意图类别
  8. 类别:Factual Lookup(19.3%)、Information Synthesis、Analysis、Recommendation、Explanation、Creative Generation、Guidance、Text Processing、Other
  9. 标注方法:GPT-4.1 自动标注,在 150 条多语种样本上 Cohen's kappa = 0.812(强一致性)
  10. 关键发现:事实查询仅占 1/5,大部分查询需要高阶能力

  11. 偏好分析(Bradley-Terry + 特征分析)

  12. 一般特征
    • 推理模型表现更好(top-3 模型平均胜率 >60%)
    • 搜索上下文窗口更大 → 更受偏好(sonar-pro high context 63.9% vs medium 57.6%)
    • 回答更长 → 更受偏好(\(\beta_{length} = 0.334\)),但事实查询场景的长度偏好减半
  13. 引用特征(核心发现):
    • 引用数量正相关偏好(\(\beta = 0.334\)
    • 不相关引用也正相关偏好(\(\beta_{irrelevant} = 0.273\)——用户将引用"存在"等同于"可信"
    • 正确归因引用的偏好系数(\(\beta_{correct} = 0.285\))与不相关引用接近——令人担忧
  14. 源站偏好:社区博客、技术平台、社交网络 > Wikipedia。Wikipedia 在运动新闻等时效性话题上不合适

  15. 跨场景分析

  16. 做什么:测试搜索 LLM 在通用聊天场景 + 通用 LLM 在搜索场景
  17. 结论 1:搜索增强不降低通用性能,在事实查询上还有提升(p=0.012),仅在文本处理上略降(p=0.077)
  18. 结论 2:通用 LLM 在搜索场景显著退化(p=0.009)——参数化知识不够

方法论工具

  • Bradley-Terry 偏好模型 + 标准化特征差系数
  • LLM-based 数据集差异分析框架(Dunlap et al.)
  • 100 条样本 × 3 专家标注者验证:专家-用户一致率 68%(排除平局),远高于随机 50%

实验关键数据

偏好影响因素(Bradley-Terry 系数)

特征 系数 \(\beta\) 统计显著性 含义
回答长度 0.334 长回答更受偏好
引用数量 正相关 更多引用更受偏好
正确归因引用 0.285 合理
不相关引用 0.273 令人担忧——几乎与正确引用等效
搜索上下文大小 正相关 ✓(部分模型) 更大窗口更好
推理能力 正相关 推理模型胜率更高

跨场景分析

模型类型 搜索场景 通用场景
搜索增强 LLM 正常 不降低(事实查询上还有提升)
通用 LLM 显著退化(p=0.009) 正常

与现有基准对比

基准 规模 语种 多轮 意图覆盖
SimpleQA 4,326 英语 事实查询
BrowseComp 1,266 英语 约束型挑战
Search Arena 24,069 71 9 类

关键发现

  • 引用数量偏差是最重要的发现:用户将引用存在等同于可信度,不区分引用是否支持声明。这对搜索 LLM 的设计有深远影响——模型有动机"注水"引用
  • 事实查询仅占真实查询的 1/5,现有基准严重低估了搜索 LLM 的应用复杂度
  • 搜索增强是"有利无弊"的——通用性能不降反升且增加了实时性,但反过来通用模型在搜索场景不行
  • 社区驱动平台(Reddit 等)比 Wikipedia 更受偏好——可能反映了信息新鲜度和讨论深度的价值

亮点与洞察

  • "引用注水"问题的系统性揭示:这是一个重要的安全/对齐发现——如果不相关引用和正确引用获得几乎相同的偏好加分,搜索 LLM 有动机增加虚假引用来提高用户满意度
  • 数据集的独特价值:完整系统追踪(URL+推理trace+多轮)使得许多下游研究成为可能——引用验证、推理质量评估、搜索策略分析
  • 跨场景分析的实践意义:搜索增强是单向的提升——可以默认开启而不担心退化

局限性 / 可改进方向

  • 用户偏好本质上是主观的,偏好 ≠ 正确/高质量
  • 众包数据可能有选择偏差(使用 Chatbot Arena 的用户群体不代表一般用户)
  • 无法控制混杂因素——引用数量与回答长度、搜索深度等特征高度相关
  • 分析是相关性而非因果性——需要控制实验来建立因果链
  • 13 个模型的覆盖有限,未包含所有主流搜索 LLM

相关工作与启发

  • vs SimpleQA/BrowseComp:规模大 5-19x,多语种多轮多意图,有偏好投票而非金标准答案
  • vs Chatbot Arena:Search Arena 是专门的搜索 tab,用户期望不同导致查询分布不同
  • vs CORAL/WildChat:这些数据集无搜索增强和引用元数据

评分

  • 新颖性: ⭐⭐⭐⭐ 首个大规模搜索增强 LLM 偏好数据集,引用偏差的揭示有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 24K 对话 + 12K 投票 + 多维度深入分析 + 跨场景评估
  • 写作质量: ⭐⭐⭐⭐ 分析层层深入,图表丰富
  • 价值: ⭐⭐⭐⭐⭐ 对搜索 LLM 评估和设计有深远影响,开源数据集价值极高