IterResearch: Rethinking Long-Horizon Agents with Interaction Scaling¶
会议: ICLR 2026
arXiv: 2511.07327
代码: 有
领域: 模型压缩
关键词: 深度研究Agent, 迭代工作区, MDP框架, 交互扩展, 强化学习
一句话总结¶
提出 IterResearch,一种基于MDP的迭代深度研究范式,通过周期性工作区重构替代单上下文线性累积,使Agent在40K上下文长度下扩展到2048次交互(性能从3.5%提升至42.5%),在6个benchmark上平均超出开源Agent 14.5个百分点。
研究背景与动机¶
深度研究Agent(如 OpenAI Deep Research、Gemini Deep Research)通过自主推理和信息检索来构建知识,但现有开源方法采用"单上下文范式"(mono-contextual paradigm)——将所有检索信息和推理步骤追加到一个不断膨胀的上下文窗口中。这导致两个根本问题:
上下文窒息 (Context Suffocation):随着上下文填满,可用于模型推理的空间逐渐缩小,迫使回复越来越简短,最终退化为过早或肤浅的结论
噪声污染 (Noise Contamination):不相关的搜索结果和早期探索错误永久嵌入上下文,产生级联干扰
核心idea:有效的长视野研究需要周期性综合和策略性遗忘——定期将发现压缩为进化中的报告,然后基于报告而非完整历史继续探索。这将状态维度从 \(O(t)\) 降至 \(O(1)\)。
方法详解¶
整体框架¶
IterResearch 将深度研究建模为MDP \(\langle\mathcal{S},\mathcal{D},\mathcal{E},\mathcal{T},R\rangle\)。每一轮Agent在重构的工作区上"思考-更新报告-执行动作",环境返回结果后重构下一轮工作区,只保留问题、进化报告和最近一轮的上下文。
关键设计¶
-
迭代工作区重构 (Iterative Workspace Reconstruction):
- 功能:保持Agent工作区大小恒定而非线性增长
- 核心思路:状态 \(s_t = (q, \mathcal{M}_t, \{a_{t-1}, \text{TR}_{t-1}\})\) 包含三部分——固定的问题 \(q\)、进化报告 \(\mathcal{M}_t\)(压缩后的历史发现)、上一步的动作结果。每步决策 \(d_t = [\text{Think}_t, \mathcal{M}_{t+1}, a_t]\),转移函数重构工作区:\(s_{t+1} = (q, \mathcal{M}_{t+1}, \{a_t, \text{TR}_t\})\)。历史轨迹被"策略性遗忘",仅通过报告保留
- 对比:单上下文范式 \(|s_t| \propto O(t)\),IterResearch \(|s_t| \approx O(1)\)
- 设计动机:报告由LLM自然生成,利用其信息压缩和相关性过滤能力,无需额外算法干预
-
效率感知策略优化 (EAPO):
- 功能:训练Agent高效探索而非漫无目的地搜索
- 核心思路(两个组件):
- 几何折扣奖励:\(r_t = \gamma^{T-t} \cdot R_T\),越快得到正确答案,每步获得的奖励越高,创造隐式效率压力
- 自适应下采样:由于迭代范式每条轨迹自然分解为多个训练样本(每轮一个),不同问题的样本数量不一致。将总样本数截断为数据并行(DP) size的最大倍数:\(|\mathcal{C}_{\text{train}}| = \lfloor|\mathcal{C}|/\text{DP}_{\text{size}}\rfloor \times \text{DP}_{\text{size}}\)
- 基于GSPO算法实现,训练目标包含PPO风格的clip和group内优势归一化
-
两阶段训练流程:
- Stage 1 RFT:拒绝采样微调,让模型学会迭代范式的基本能力
- Stage 2 RL:基于EAPO进一步优化搜索策略和推理能力
- 骨干:Qwen3-30B-A3B(在性能和效率间平衡)
三个核心发现¶
- 交互扩展 (Interaction Scaling):2→2048次交互,BrowseComp准确率从3.5%→42.5%
- 跨范式知识迁移:IterResearch生成的轨迹用于训练单上下文Agent也能提升性能
- 作为提示策略:直接应用于GPT-4o/Claude等前沿模型(无训练),在BrowseComp上比ReAct提升12.7-19.2pp
实验关键数据¶
主实验¶
| 模型 | HLE | BC | BC-zh | GAIA | Xbench-DS | SEAL-0 |
|---|---|---|---|---|---|---|
| WebSailor-72B | 9.8 | 12.0 | 30.1 | 55.4 | 55.0 | 19.8 |
| MiroThinker-32B | 19.1 | 17.2 | 29.4 | 64.1 | 56.0 | — |
| IterResearch-30B-A3B | 28.8 | 37.3 | 45.2 | 72.8 | 71.0 | 39.6 |
| 提升 | +8.8 | +20.1 | +15.8 | +8.7 | +15.0 | +18.9 |
| OpenAI DeepResearch | 26.6 | 51.5 | 42.9 | 67.4 | — | — |
交互扩展消融¶
| 最大交互次数 | BrowseComp 准确率 |
|---|---|
| 2 | 3.5% |
| 32 | ~15% |
| 128 | ~28% |
| 512 | ~35% |
| 2048 | 42.5% |
关键发现¶
- 在6个benchmark上平均超出最佳开源Agent 14.5pp
- 在HLE和BC-zh上超越OpenAI DeepResearch
- 交互扩展到2048次实现12倍性能提升,表明长视野任务的难度可能源于探索容量不足
- 作为零训练的提示策略用于GPT-4o在BrowseComp上+19.2pp,证明范式本身的通用价值
亮点与洞察¶
- MDP建模的"策略性遗忘"思想优雅——进化报告就是压缩的状态表示,完美契合MDP的马尔可夫性
- 交互扩展的发现意义重大——说明当前Agent的"失败"更多是因为探索不够而非能力不够
- 跨范式知识迁移和零训练提示策略两个发现拓展了方法的应用边界
局限与展望¶
- 报告质量是关键瓶颈——如果重要信息在摘要中丢失,后续推理将受影响
- 每轮重构意味着需要再次理解报告,可能有冗余计算
- 仅在Qwen3-30B-A3B上训练,更大/更小模型的表现需验证
- 几何折扣奖励的 \(\gamma\) 选择可能是敏感超参
相关工作与启发¶
- vs WebThinker/WebDancer: 这些方法使用单上下文范式,不可避免地遭遇上下文窒息
- vs InftyThink: 类似的迭代+摘要思想但应用于推理任务,IterResearch面向信息检索Agent
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ MDP建模+迭代工作区重构是研究Agent范式的重要突破
- 实验充分度: ⭐⭐⭐⭐⭐ 6个benchmark、交互扩展、跨范式迁移、零训练提示多维度验证
- 写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰,方法形式化严谨
- 价值: ⭐⭐⭐⭐⭐ 直接推进了深度研究Agent的SOTA,实用价值极高
相关论文¶
- [AAAI 2026] Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework with Unbiased Recovery and Relabeling
- [ICLR 2026] Rethinking Continual Learning with Progressive Neural Collapse
- [ICLR 2026] Taming Momentum: Rethinking Optimizer States Through Low-Rank Approximation
- [ICLR 2026] A universal compression theory for lottery ticket hypothesis and neural scaling laws
- [ICLR 2026] Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models