Can Agents Fix Agent Issues?¶
会议: NEURIPS2025
arXiv: 2505.20749
代码: 待确认
领域: robotics / LLM agent
关键词: 代理调试, SE agent, AgentIssue-Bench, bug修复
一句话总结¶
AgentIssue-Bench(50个bug任务)评估SE代理解决LLM代理bug的能力,仅0.67%-4.67%解决率。
背景与动机¶
SE代理能维护代理系统吗?答案是基本不能。
方法详解¶
50任务+500人时构建;可执行环境+失败测试。
实验关键数据¶
0.67%-4.67%;~201问题分析。
亮点¶
揭示代理维护根本困难;首个代理维护基准。
局限性¶
50任务;SE代理非专设计。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 新问题
- 实验充分度: ⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐ 代理可维护性重要发现