跳转至

Can Agents Fix Agent Issues?

会议: NEURIPS2025
arXiv: 2505.20749
代码: 待确认
领域: robotics / LLM agent
关键词: 代理调试, SE agent, AgentIssue-Bench, bug修复

一句话总结

AgentIssue-Bench(50个bug任务)评估SE代理解决LLM代理bug的能力,仅0.67%-4.67%解决率。

背景与动机

SE代理能维护代理系统吗?答案是基本不能。

方法详解

50任务+500人时构建;可执行环境+失败测试。

实验关键数据

0.67%-4.67%;~201问题分析。

亮点

揭示代理维护根本困难;首个代理维护基准。

局限性

50任务;SE代理非专设计。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 新问题
  • 实验充分度: ⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐ 代理可维护性重要发现