Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering¶

会议: ICLR 2026
arXiv: 2502.13069
代码: https://github.com/sani903/InteractiveSWEAgents
领域: AI安全
关键词: underspecification, interactive agent, SWE-Bench, clarification, software engineering

一句话总结¶

构建 Ambig-SWE（基于 SWE-Bench Verified 的欠指定变体），系统评估 LLM 编程 agent 在三个维度上的交互能力——检测欠指定、提出澄清问题、利用交互信息——发现交互可将欠指定场景下的解决率提升最高 74%，但模型默认非交互行为且难以区分指定充分/不足的指令。

领域现状：LLM agent 在软件工程中被广泛部署（如 SWE-Bench 上的 OpenHands），但用户指令经常欠指定。人类开发者遇到信息不足时会主动询问，而 AI agent 则直接假设并继续执行。
现有痛点：(1) 欠指定指令导致错误输出、安全风险和计算资源浪费；(2) 现有关于欠指定的研究只关注缺少单一细节，而真实软件工程任务涉及多个相互依赖的信息缺口；(3) LLM 默认非交互行为——即使面对严重信息不足也不会主动询问。
核心矛盾：交互能有效恢复因欠指定损失的性能（最高 74%），但模型不知道什么时候该交互、该问什么、如何利用获得的信息。
本文要解决什么？ 系统评估和量化 LLM agent 处理欠指定指令的能力，分解为可独立改进的原子能力。
切入角度：在 SWE-Bench Verified 上构建欠指定变体，设计三种评估设置（Full/Hidden/Interaction），用 GPT-4o 模拟用户。
核心idea一句话：将欠指定处理分解为"检测-提问-利用"三步，用交互实验量化每步的能力和改进空间。

三种评估设置：(1) Full——完整 GitHub issue，不交互；(2) Hidden——欠指定版本（GPT-4o 摘要），不交互；(3) Interaction——欠指定版本，可与持有完整信息的 GPT-4o 代理人交互。在 OpenHands 框架下测试 6 个模型。

N/A（评估论文，不训练模型）

模型	Hidden	Interaction	Full	恢复率
Claude S4	49.0	52.4	58.8	89%
Claude S3.5	27.3	35.0	43.8	~80%
Qwen3 Coder	45.6	53.6	59.2	~85%
Haiku 3.5	13.0	20.8	26.0	~80%
Deepseek-v2	2.0	7.2	12.2	59%
Llama 70B	1.4	3.6	6.6	54%

模型	Accuracy	FPR↓	FNR↓
Claude S4	0.89	0.03	0.18
Claude S3.5	0.76	0.36	0.10
Qwen3 Coder	0.50	0.00	1.00

Qwen3 Coder FNR=1.0：即使在 Strong prompt 下也从不主动交互——完全忽略欠指定！遵循固定的 SWE-Bench 解题协议
交互最高可提升 74%（Hidden→Interaction），但仍明显低于 Full——说明模型利用交互信息的能力有限
信息类型分析：获取导航信息（文件路径）对弱模型帮助最大，对强模型帮助有限（因为它们自己能定位代码）
模型规模/编码能力 ≠ 交互能力——Haiku（小模型）的信息利用率与 Sonnet 3.5 相当
Claude S4 在 Hidden 场景下大量探索代码库弥补信息不足（平均 65 步），交互时增加到 75 步——交互增加了效果但不增加效率