ExpSeek: Self-Triggered Experience Seeking for Web Agents¶

会议: ACL 2026
arXiv: 2601.08605
代码: https://github.com/WYRipple/ExpSeek
领域: LLM Agent
关键词: Web Agent, 经验干预, 熵触发, 主动寻求指导, 多轮交互

一句话总结¶

ExpSeek 提出了一种基于步级熵自触发的经验主动寻求框架，让 Web Agent 在交互过程中根据自身信号判断何时需要指导、获取什么指导，在 Qwen3-8B/32B 上分别实现 9.3% 和 7.5% 的绝对提升。

研究背景与动机¶

领域现状：Web Agent 需要在开放网络中进行多轮交互获取信息并回答复杂查询。经验干预（experience intervention）已被证明是提升 agent 能力的有效范式，现有方法主要分为离线经验提炼和在线自演化两条路线。

现有痛点：现有经验注入方式是被动的——在任务开始前将经验作为全局上下文一次性注入系统提示。然而在 agent 与环境的多轮交互中，上下文观测持续变化，初始注入的静态经验难以适应动态场景，可能导致决策偏差。

核心矛盾：经验的有效性依赖于时机和内容的精准匹配：过于频繁的干预增加推理负担，过于稀疏则错失关键指导窗口；全局经验无法针对当前步骤的具体状态提供定制化指导。

本文目标：构建一种主动经验寻求框架，解决两个核心问题——(1) 何时寻求经验（when）：利用模型自身信号判断干预时机；(2) 寻求什么经验（what）：设计步级定制化经验内容。

切入角度：作者观察到 LLM 的步级熵（token entropy 均值）与推理质量存在统计相关性——错误步骤的熵显著高于正确步骤。这种内在信号可以作为 agent "困惑"程度的指示器，无需额外的奖励模型。

核心 idea：用模型自身的步级熵作为自触发信号判断干预时机，结合经验库和经验模型动态生成步级定制化指导，实现从被动全局注入到主动步级寻求的范式转变。

方法详解¶

整体框架¶

ExpSeek 包含三个阶段：(1) 经验库构建——从成功/失败轨迹对中提取结构化经验三元组并按主题组织；(2) 熵自触发机制——通过 logistic 回归和 bootstrap 重采样估计过程步和回答步的熵阈值区间；(3) 推理时引导干预——当步级熵超过阈值时，经验模型基于当前上下文检索相关经验并生成定制化指导。

关键设计¶

经验库构建 (Experience Base Construction):
- 功能：从训练轨迹中提炼可复用的引导经验
- 核心思路：对训练集中每个查询采样 \(k\) 条轨迹，配对成功和失败轨迹 \((\tau^+, \tau^-)\)。由工具模型逐步分析失败轨迹，对每个错误步骤生成经验三元组：行为描述（Behavior）、错误分析（Mistake）、纠正方向（Guidance，不直接给答案）。最后通过迭代批处理为三元组归纳主题标签，形成按主题组织的经验库 \(\mathcal{E}_p\)（过程步）和 \(\mathcal{E}_a\)（回答步）
- 设计动机：三元组设计模拟了人类从错误中学习的模式，主题组织使检索更高效，按步骤类型分库匹配了过程步和回答步不同的熵分布特征
熵自触发机制 (Entropy as Self-Trigger):
- 功能：利用模型内在信号自动判断何时需要经验干预
- 核心思路：计算每步的平均 token 熵 \(\bar{H}_t = \frac{1}{|R_t|} \sum_{x \in R_t} H(x)\)。对过程步和回答步分别拟合 logistic 回归模型 \(P(y_t=0|\bar{H}_t) = 1/(1+e^{-(w \cdot \bar{H}_t + b)})\)，通过 1000 次 bootstrap 重采样估计 95% 置信区间 \([\theta_{lower}, \theta_{upper}]\) 作为阈值区间。推理时，低于下界不干预，高于上界必定干预，区间内按线性概率干预
- 设计动机：KS 检验证实正确/错误步骤的熵分布在统计上可区分（过程步 KS=0.1998, 回答步 KS=0.3809, p<0.001）。概率化干预避免了硬阈值的脆弱性，bootstrap 提供了稳健的区间估计
步级引导干预 (Guided Intervention at Inference):
- 功能：在触发时生成与当前上下文匹配的定制化指导
- 核心思路：当熵触发干预且上一步未干预时，经验模型 \(\mathcal{M}_e\) 读取当前步的历史上下文 \(h_t\)，从对应经验库中选择 3 个最相关主题，基于这些主题下的经验三元组为当前场景动态生成指导 \(e_t\)。过程步的指导追加在环境观测后，回答步的指导则使 agent 可以继续推理或修正答案
- 设计动机：生成式指导优于检索式（实验证实检索式效果差很多），因为生成可以根据当前具体语境调适通用经验。一步冷却期（干预后下一步不再干预）防止过度干预

损失函数 / 训练策略¶

ExpSeek 为推理时框架，不涉及训练。经验库构建使用 Qwen3-235B-A22B-Instruct 作为工具模型。Agent 使用 Qwen3-8B/32B，采样温度 1.0，top-p 0.95，最大 30 步 ReAct 交互。

实验关键数据¶

主实验¶

四个 Web Agent 基准上的准确率（%）

方法	WebWalkerQA	GAIA	Seal	xbench	Avg.
Qwen3-8B
No Experience	38.47	29.13	23.23	25.60	32.23
Training-Free GRPO	40.62	29.32	25.59	26.00	33.79
ReasoningBank+	40.78	32.04	26.38	28.00	34.80
ExpSeek	48.25	36.89	30.16	37.20	41.50
Qwen3-32B
No Experience	45.01	36.50	27.80	27.40	37.79
ReasoningBank+	45.60	33.01	29.84	36.33	39.33
ExpSeek	51.09	43.88	32.76	42.00	45.32

消融实验¶

变体 (8B)	GAIA	xbench
仅过程步指导	33.01 (+3.9)	28.40 (+2.8)
仅回答步指导	30.29 (+1.2)	34.80 (+9.2)
完整 ExpSeek	36.89 (+7.8)	37.20 (+11.6)

触发与指导方式对比 (8B, GAIA)

触发方式	指导方式	Acc.	平均步数	平均时间
规则触发	经验模型	38.81	9.52	329.71s
Claude-4	经验模型	39.47	8.55	370.82s
熵触发	经验模型	36.89	5.75	127.57s
熵触发	检索嵌入	30.92	5.54	110.61s

关键发现¶

熵触发的效率优势显著：步数仅为规则触发的 60%，时间仅为 39%，同时保持相当的准确率
4B 经验模型即可有效指导 32B Agent（GAIA +5.2%, xbench +9.7%），验证了弱模型引导强模型的可行性
经验指导使过程步熵增加（促进探索），回答步熵降低（增强收敛），形成"发散-收敛"的行为模式
即使每个主题仅保留 1 条经验，性能仍然稳健，说明经验模型能从少量种子经验中泛化

亮点与洞察¶

将经验干预从被动的全局注入转变为主动的步级寻求，是范式层面的创新
利用模型自身的熵信号作为触发器，无需额外奖励模型，既优雅又实用
"发散-收敛"的熵行为模式提供了对 ExpSeek 工作机制的直觉解释
跨任务泛化能力强：仅用 WebWalkerQA 25% 数据构建经验库，在三个 OOD 基准上仍显著有效

局限与展望¶

阈值估计依赖训练集和工具模型对步骤质量的评估，更精确的策略有待探索
尚未验证在非 Web 领域和更多工具集上的效果
可探索 ExpSeek 作为 Agentic RL 的 rollout 增强技术，提升收敛速度和采样质量

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从被动注入到主动寻求的范式转换，熵自触发机制设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 四个基准、两个模型规模、丰富的消融和分析（效率、缩放律、迁移性、内部机制）
写作质量: ⭐⭐⭐⭐ 结构清晰，动机充分，实验分析深入