UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking¶

日期: 2026-03-09
arXiv: 2603.08117
代码: HuggingFace Dataset
领域: LLM/NLP
关键词: unindexed information seeking, research agent, multi-agent, dual-mode browsing, deep research

一句话总结¶

发现并形式化"未索引信息检索（UIS）"问题——搜索引擎无法直接索引的信息（动态页面/嵌入文件/深层链接），构建首个 UIS-QA benchmark（110 条专家标注 QA 对），并提出 UIS-Digger 四 agent 协作框架（双模浏览器+文件解析+SFT/RFT 两阶段训练），用 ~30B 参数模型达到 27.27% 超越 O3+GPT-4.1 驱动的系统。

研究背景与动机¶

领域现状: LLM 信息检索 agent 在 GAIA（Tongyi-DR 达 70.9%）和 BrowseComp-zh（46.7%）上表现优秀，这些 benchmark 评估的是基于搜索引擎索引知识的信息检索能力（Indexed Information Seeking, IIS）。
现有痛点: 现实世界中大量关键信息未被搜索引擎索引（Unindexed Information）——政府公告中需要多步点击才能到达的嵌入表格、需要日期选择器/筛选器等交互才能获取的动态页面内容、PDF/XLSX 等文件中的数据、被搜索引擎爬虫忽略的深层页面。现有 benchmark 完全没有评估这一能力。
核心矛盾: 两个因素限制了 UIS 能力——(a) action space 不足：搜索引擎型 agent 只能搜索+爬取，无法做深度网页交互（点击按钮/选日期/下载文件），使 UIS 问题"理论上不可解"；(b) 基座模型能力不足：即使扩展了 action space，模型也需要在庞大的行动空间中做出正确选择。
本文要解决什么: (a) 形式化 UIS 问题并构建评估 benchmark；(b) 设计覆盖搜索+深度浏览+文件解析的完整 action space；(c) 通过两阶段训练提升基座 LLM 的 UIS 决策能力。
切入角度: 将互联网页面集 \(\mathcal{P}\) 分为搜索引擎可索引的 \(\mathcal{II}\) 和不可索引的 \(\mathcal{UI} = \mathcal{P} \setminus \mathcal{II}\)，当回答问题需要的证据包含 \(\mathcal{UI}\) 中的信息时即为 UIS 问题。
核心 idea: 扩展 agent action space（搜索+浏览+视觉感知+文件读取）+ 双模浏览（文本+截图共享记忆）+ SFT/RFT 两阶段微调底层 LLM。

方法详解¶

整体框架¶

用户查询 → Planner（任务分解+协调子 agent）→ Web Searcher（搜索引擎+爬虫获取索引信息，可委托 Web Surfer/File Reader）→ Web Surfer（从 URL 出发操作浏览器深度交互：点击/滚动/输入/选择/截图/下载）→ File Reader（PDF/XLSX/DOCX 分块解析）→ Planner 整合信息输出最终答案。四个 agent 通过请求-响应消息系统通信，每个 agent 配备独立工具集，遵循 ReAct 范式迭代推理。

关键设计¶

UIS-QA Benchmark 构建:
- 做什么：首个专门评估 UIS 能力的 benchmark，110 条专家标注 QA 对
- 核心思路：专家团队在权威/官方网站进行深度浏览（多轮点击、选项选择、筛选器设置、站内搜索、文件下载），到达深层信息源后基于内容编写事实性问答题
- 质量保证五原则：客观性（确定唯一答案）、权威性（来源必须是官方/权威网站）、静态性（答案不随时间变化）、可验证性（数值/日期/专有名词格式）、可访问性（无需登录或 CAPTCHA）
- UIS 过滤流水线：3 人独立用 Google 搜索验证 → z.ai 自动验证 → DeepSeek-R1 离线 LLM 过滤 → 最终保留 110 条确认需要未索引信息的样本
- 数据分布：84 条中文 + 26 条英文，覆盖政府公告/产品文档/代码仓库/游戏/公司年报等领域
双模浏览策略（Dual-Mode Browsing）:
- 做什么：Web Surfer 在文本模式和视觉模式间动态切换
- 核心思路：文本模式读取 HTML 源码处理结构化内容（高效），视觉模式截图理解复杂布局/图表/交互控件（完整）；两种模式共享同一份内存和浏览器状态
- 设计动机：纯文本 agent 无法理解视觉布局（如图表/日期选择器），纯视觉 agent 效率低；共享记忆消除了模式切换的同步开销，优先文本模式以加速推理，仅在必要时切换视觉模式
训练数据构造（真实+模拟双轨）:
- 做什么：构造 UIS 训练数据用于微调基座 LLM
- 真实轨道：收集 100+ 真实网站 → UIS-Digger 在网站内漫游提取深层信息 → 另一个 LLM 基于提取内容生成 QA 对 → LLM judge 过滤
- 模拟轨道：针对早期薄弱环节（如日期选择器交互）开发 3 类虚拟网站（航班预订/统计数据查询），配有虚构 JSON 数据库，QA 对直接从数据库导出
- 设计动机：真实数据保证泛化性，模拟数据强化特定交互能力短板
SFT + RFT 两阶段微调:
- 做什么：将通用 LLM 训练为 UIS 专用决策模型
- SFT 阶段：用强教师模型 \(\mathcal{X}^*\) 在部分训练题上生成轨迹（temperature=0），reject sampling 保留正确且非平凡的轨迹，冷启动训练得到 \(\mathcal{X}^s\)
- RFT 阶段：\(\mathcal{X}^s\) 在剩余训练题上 temperature=0.4 采样 4 条轨迹/题，reject sampling 保留正确的，按难度重加权（难题轨迹更高权重），bootstrapping 得到最终 \(\mathcal{X}^r\)
- 设计动机：SFT 提供能力基线，RFT 通过探索+难度加权进一步提升 UIS 决策能力

训练策略¶

仅对 LLM 生成的 token 做梯度更新，工具返回内容不参与训练
训练了两个版本：PanGu-38B 和 Qwen3-32B
SFT 和 RFT 使用不相交的训练题集

实验关键数据¶

主实验（UIS-QA + GAIA + BrowseComp-zh）¶

方法	类型	Backbone	UIS-QA	GAIA	BC-zh
DeepSeek-V3.1	直接推理	DeepSeek-V3.1	1.8%	—	—
GPT-5	直接推理	GPT-5	0.9%	—	—
Gemini-2.5-pro	商业系统	Gemini-2.5-pro	4.5%	—	—
WebSailor	ReAct	32B+Qwen3-72B	7.3%	53.2	25.5
Tongyi-DR	ReAct	30B+GPT-4o	23.6%	70.9	46.7
OWL	多 agent	O3-mini+4o+Claude	4.6%	69.7	—
Memento	多 agent	O3+GPT-4.1	25.5%	79.4	—
UIS-Digger (Pangu)	多 agent	PanGu-38B	27.3%	50.5	32.5
UIS-Digger (Qwen)	多 agent	Qwen3-32B	27.3%	47.6	32.5

消融实验（训练阶段消融，PanGu-38B backbone）¶

配置	UIS-QA Acc	提升
基座模型（无训练）	9.1%	—
+ SFT	22.7%	+13.6 pp
+ SFT + RFT（完整）	27.3%	+4.6 pp

关键发现¶

所有 baseline 在 UIS-QA 上大幅暴跌: Tongyi-DR 从 GAIA 70.9% 跌至 UIS-QA 23.6%（-47.3 pp），Memento 从 79.4% 跌至 25.5%（-53.9 pp），证明 UIS 是真实且严重的盲区
直接推理完全无效: GPT-5 仅 0.9%，DeepSeek-V3.1 仅 1.8%，无工具调用几乎无法解决 UIS 问题
Action space 是必要条件但非充分条件: OWL 有完整 action space 但仅 4.6%，说明基座模型能力才是瓶颈
两阶段训练收益显著: SFT +13.6 pp，RFT 再 +4.6 pp，且 RFT 的难度加权策略有效
在 GAIA 上表现好的方法在 UIS-QA 上也相对好（相关但非必然）——强基座模型对 UIS 任务仍然重要
~30B 专门训练的模型超越 O3+GPT-4.1 组合: 说明 UIS 场景下模型微调比模型规模更重要

亮点与洞察¶

发现并形式化了一个重要的新问题: UIS 将互联网信息明确分为"可索引"和"不可索引"两类——现有 agent 只擅长前者。形式化清晰（\(\mathcal{II}\) vs \(\mathcal{UI}\) 的集合论定义）为后续研究奠定了基础
UIS benchmark 的独特性: 与 GAIA/BrowseComp 的关键区别是 Unindexed-Information Dependence——答案必须通过未索引信息才能获得，且用确定性短答案评估消除主观判断
双模浏览共享记忆: 文本和视觉模式共享状态是比交替调用两个独立系统更高效的设计。优先文本模式、按需视觉模式的策略兼顾了效率和能力
模拟网站训练策略: 针对交互控件薄弱环节构建虚拟网站的做法值得借鉴——可以精确控制训练目标

局限性 / 可改进方向¶

110 条测试样本偏少，统计显著性有限，且可能存在领域偏差
27.27% 的绝对准确率仍然很低，距离实用有很大差距
中英文比例不均衡（84 中文 + 26 英文），可能偏向中文互联网
UIS 的形式化定义依赖特定搜索引擎（Google Serper），换引擎后 UIS/IIS 划分可能变化
训练数据构造依赖强教师模型（如 O3），冷启动成本高
未来可探索：更大规模 UIS benchmark、跨语言 UIS 评估、工具增强型 LLM 的通用 UIS 微调策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次定义 UIS 问题并构建专用 benchmark，揭示了 agent 评估的根本盲区
实验充分度: ⭐⭐⭐⭐ 15+ baseline 对比 + 训练阶段消融 + 详细失败分析 + 搜索/浏览行为可视化
写作质量: ⭐⭐⭐⭐ 问题形式化清晰（集合论定义），数据构造流水线详尽
价值: ⭐⭐⭐⭐⭐ 对 agent 研究方向有重要指引意义——从"搜索够用"转向"深度浏览必要"