The Limits of Long-Context Reasoning in Automated Bug Fixing¶

会议: ICLR 2026
arXiv: 2602.16069
代码: 无
领域: Agent / 代码
关键词: long-context reasoning, automated bug fixing, SWE-bench, agentic workflow, context window

一句话总结¶

系统评估当前 LLM 在长上下文代码调试中的能力极限，发现 agentic 工作流的成功来自任务分解而非长上下文推理（成功轨迹仅消耗 20-30K token），64K token 单次补丁生成中性能急剧下降（GPT-5-nano 0%），揭示名义上下文长度与实际可用上下文能力之间的显著差距。

研究背景与动机¶

领域现状：LLM 在代码修复领域取得进展，SWE-bench 等基准上的 resolve rate 不断提升，主要通过 agentic 工作流（如 SWE-agent）实现。
现有痛点：人们常将 agentic 成功归因于 LLM 的长上下文推理能力，但这一假设从未被严格验证。名义上下文窗口（如 128K）与实际可靠推理的上下文范围可能存在巨大差距。
核心矛盾：agentic 框架的成功究竟来自"长上下文推理"还是"任务分解将问题缩小到短上下文"？
本文要解决：通过控制实验分离 agentic 分解和长上下文推理的贡献，量化 LLM 在长上下文代码修复中的真实能力。
切入角度：对比同一模型在 agentic 模式（渐进式探索）和 64K 单次模式（完整上下文一次给出）下的表现。
核心idea：当前 LLM 的实际长上下文推理能力远低于名义上下文长度所暗示的水平。

方法详解¶

整体框架¶

两阶段实验设计：① Agentic 评估——用 mini-SWE-agent（bash-only 命令行工作流）在 SWE-bench Verified 上评估，分析成功/失败轨迹的 token 消耗分布；② 64K 单次补丁生成——用 BM25 检索 + 注入 gold patch 文件构造 64K token 上下文，要求模型一次性生成补丁。

关键设计¶

Token 消耗分布分析:
做什么：统计 agentic 成功和失败轨迹的 token 分布
核心发现：成功轨迹通常仅消耗 20K-30K token，远低于名义上下文窗口
失败样本反而消耗更多 token（在上下文中"迷失"）
设计动机：如果 agentic 成功依赖长上下文推理，成功轨迹应该消耗更多 token——但事实相反
64K 单次管线设计:
做什么：构造包含足够信息的完整上下文，测试模型的单次推理能力
核心设计：BM25 检索代码块 + 注入 gold patch 所涉文件，确保 100% recall
输入为 64K token 的完整上下文 + 修改指令，要求输出 unified diff 补丁
设计动机：消除 agentic 框架的分解贡献，直接测试"给你所有信息，能否推理出答案"
失败模式分类:
幻觉 diff：chunk header 行号远超实际文件长度
错误文件引用：补丁目标指向不存在的文件路径
格式错误：无法解析的 diff 头部
这些失败表明模型在长上下文中丢失了基本的代码结构理解

实验关键数据¶

主实验——Agentic vs 64K 单次¶

模型	Agentic Resolve	64K 单次 Resolve
GPT-5-nano	31%	0%
DeepSeek-R1-0528	30.3%	N/A
Qwen3-32B	15.2%	N/A
Qwen3-Coder-30B-A3B	N/A	7%

Agentic 31% vs 64K 0%——同一模型，差距天壤之别！

Token 分布分析¶

类别	平均 Token 消耗	特征
Agentic 成功	~20-30K	高效、集中
Agentic 失败	>30K	分散、发散

关键发现¶

Agentic 成功 ≠ 长上下文能力：成功轨迹消耗的 token 远低于上下文窗口上限
GPT-5-nano 在 64K 单次模式下完全失败（0%），但 agentic 模式 31%——说明是任务分解在起作用
Qwen3-Coder 在 64K 下也仅 7%——即使是专门的代码模型也无法有效利用长上下文
失败模式以"幻觉"为主：模型在长上下文中丧失了对代码结构的基本理解
名义上下文长度（128K+）是"纸面能力"，实际可靠推理范围可能仅 20-30K

亮点与洞察¶

核心洞察震撼：agentic 成功被错误归因于"长上下文推理"，实际来源于"任务分解将问题缩小到短上下文"——这对整个 LLM agent 社区的认知有校正作用
实验设计精巧：通过 BM25+gold file 注入确保 100% recall，排除信息不足的干扰，直接测试推理能力
失败模式分析有价值：幻觉 diff 等模式说明模型在长上下文中不只是"找不到信息"，而是"丧失了基本推理能力"
启示：agent 框架的核心价值是"控制每步的上下文在可靠范围内"，而非让模型处理长上下文

局限性 / 可改进方向¶

仅使用 100 个 SWE-bench Verified 样本，统计效力有限
64K 实验仅测试 GPT-5-nano 和 Qwen3-Coder，未覆盖更多模型
未区分长上下文失败是"信息过载导致混淆"还是"更难的问题天然需要更多上下文"
mini-SWE-agent 是简化版框架，全功能 SWE-agent 可能有不同 token 分布
未测试更长上下文（如 256K、1M）

补充技术细节¶

为什么 64K 会失败？¶

在 64K token 的代码上下文中，模型需要同时理解代码结构、定位 bug 位置、生成正确的 diff 格式。这三个步骤在 agentic 模式下是分步完成的（每步仅处理几千 token），但在单次模式下需要在一次前向传播中完成全部推理。模型的注意力机制在长序列上的有效感受野远小于理论窗口大小。

mini-SWE-agent 的设计¶

mini-SWE-agent 使用线性历史 —— 每步执行 bash 命令后将输出追加到消息流，不做压缩或总结。这使得 token 消耗分析更准确，但也意味着历史中可能包含大量无关信息。

评分¶

新颖性: ⭐⭐⭐⭐ 核心洞察有价值，实验设计巧妙
实验充分度: ⭐⭐⭐ 样本量小，模型覆盖有限
写作质量: ⭐⭐⭐⭐ 论点清晰，数据直观
价值: ⭐⭐⭐⭐⭐ 对 LLM 长上下文能力的认知有重要校正作用