InnoGym: Benchmarking the Innovation Potential of AI Agents¶

会议: ICLR 2026
arXiv: 2512.01822
代码: https://github.com/zjunlp/igym
领域: AI评估 / Agent
关键词: innovation benchmark, AI agent, novelty evaluation, agent-as-judge, research automation

一句话总结¶

提出 InnoGym 框架和 iBench/iGym 基准，首次从"创新性"维度评估 AI Agent——不仅衡量正确性还衡量方法论新颖性，发现当前 Agent 能产生新颖想法但无法转化为性能提升（平均归一化增益 -0.45）。

研究背景与动机¶

领域现状：现有 Agent benchmark（SWE-bench, MATH 等）仅衡量任务完成度/正确性，忽略方法论新颖性。
现有痛点：真正的创新需要"性能超越 SOTA + 方法论不同"——这一维度在评估中缺失。
核心idea一句话：用 (P,S,V,D) 形式化创新，\(V = C(s) \cdot R(s)\) 衡量性能增益 G，\(D\) = Agent-as-judge 按 6 维度评估新颖性 N。

方法详解¶

关键设计¶

Performance Gain: \(G(s) = V(s) - V^*_{known}\)
Novelty: \(N(s) = \min\) distance to known solutions（6 维度评分 0-4）
iBench: 10 个 SOTA 可超越的任务（Circle Packing、对抗鲁棒性等）
三种 Agent: MLAB, CodeAct, AIDE

实验关键数据¶

主实验¶

Agent	平均归一化增益	平均新颖性
MLAB	-0.45	56.55
CodeAct	-0.69	-
AIDE	-0.64	-

所有 Agent 性能增益为负——没有超越已知 SOTA。

关键发现¶

创新瓶颈在执行而非想法：Agent 能产生新颖方案（novelty 56.55）但无法正确实现
温度折中：0.5-0.75 最优
显式"创新提示"提升新颖性（35→58）但降低性能
高新颖性往往伴随最差性能

亮点与洞察¶

创新 ≠ 新颖：创新需要新颖性 AND 性能提升
Agent-as-judge 的 6 维度新颖性评估方法具有可操作性

局限性 / 可改进方向¶

仅 10 个任务，覆盖面有限
每任务 12 小时计算限制

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从创新维度评估 Agent
实验充分度: ⭐⭐⭐⭐ 多 Agent、多任务、温度分析
写作质量: ⭐⭐⭐⭐ 形式化框架优雅
价值: ⭐⭐⭐⭐ 揭示了 Agent 的"创新鸿沟"