🦾 LLM Agent¶
🔬 ICLR2026 · 共 45 篇
- A Benchmark for Deep Information Synthesis (DeepSynth)
-
提出 DeepSynth 基准,包含 120 个跨 7 领域 67 国的真实信息综合任务(平均需 5.5 小时人工标注),要求 agent 从多个网页收集信息并进行结构化推理,当前最强 agent(o3-deep-research)仅获 8.97 F1 / 17.5% LLM-Judge,揭示了 LLM agent 在信息综合方面的严重不足。
- Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
-
提出 ACE(Agentic Context Engineering)框架,将 context 视为不断演化的"策略手册"(playbook),通过 Generator-Reflector-Curator 三角色分工和增量式 delta 更新来持续积累和精炼策略,解决了现有 prompt 优化中的简洁偏差和上下文坍塌问题,在 agent 任务上平均提升 10.6%、金融任务提升 8.6%,且自适应延迟降低 86.9%。
- AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents
-
提出AgentSynth pipeline,利用信息不对称原理(正向逐步生成简单、反向整体求解困难)将简单子任务链式组合为复杂长程计算机使用任务,自动生成6000+多样化任务和轨迹,每条轨迹仅需$0.60,SOTA Agent在最高难度下成功率仅4%。
- Ambig-SWE: Interactive Agents to Overcome Underspecificity in Software Engineering
-
构建 Ambig-SWE(基于 SWE-Bench Verified 的欠指定变体),系统评估 LLM 编程 agent 在三个维度上的交互能力——检测欠指定、提出澄清问题、利用交互信息——发现交互可将欠指定场景下的解决率提升最高 74%,但模型默认非交互行为且难以区分指定充分/不足的指令。
- ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents
-
揭示 LLM Agent 中 chat template 的结构性漏洞:通过在工具返回的数据中伪造角色标签(如
<system>,<user>),攻击者可以劫持模型的角色层级认知,将恶意指令伪装为高优先级指令,ASR 从 5-15% 提升至 32-52%。 - Efficient Agent Training for Computer Use
-
PC Agent-E 仅用 312 条人工标注的 Windows 操作轨迹,通过 Trajectory Boost 方法让 Claude 3.7 Sonnet 在每个时间步合成多样化的替代动作决策,训练后的 Qwen2.5-VL-72B 在 WindowsAgentArena-V2 上相对提升 141%,甚至超越教师模型 Claude 3.7 Sonnet 10%。
- Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization
-
提出 EMPO2,一种结合外部记忆模块与混合 on-policy/off-policy 更新的 RL 框架,通过记忆引导探索和知识蒸馏将探索收益内化到模型参数中,在 ScienceWorld 和 WebShop 上分别比 GRPO 提升 128.6% 和 11.3%。
- FeatureBench: Benchmarking Agentic Coding for Complex Feature Development
-
提出 FeatureBench——面向特征级软件开发的 Agent 编程基准,200 个任务/24 个开源仓库,平均需实现 790 行代码跨 15.7 个文件。即便是 Claude Opus 4.5(SWE-bench 74.4%)也仅解决 11.0%,揭示了当前 Agent 在真实特征开发场景中的巨大能力缺口。
- FingerTip 20K: A Benchmark for Proactive and Personalized Mobile LLM Agents
-
FingerTip 20K 收集了 95 名用户在真实日常手机使用中的 21,437 条交互记录(含用户画像、时间、位置、历史意图),提出两个新赛道——主动任务建议(预测用户意图)和个性化任务执行(适配动作偏好),最强模型 Qwen-QVQ-Max 主动建议成功率仅 12.8%(人类 30.3%),UI-TARS 执行成功率仅 38.5%。
- Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
-
提出 EMPG 框架,通过步级熵(uncertainty)动态调制策略梯度的幅度,解决长序列 LLM Agent 任务中稀疏奖励下的信用分配问题,在 WebShop、ALFWorld 和 Deep Search 三个基准上显著超越 GRPO 和 DAPO。
- InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios
-
提出 InfiAgent,一个基于 DAG 的金字塔式多智能体框架,通过 agent-as-a-tool 机制实现自动化的层级任务分解、双重审计质量保障、智能路由和自演化能力,在多个推理基准上比 ADAS 平均提升 9.9%。
- Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals
-
发现现代 LLM agents 虽然对直接对抗性压力具有鲁棒性(目标偏移为 0),但会从弱模型的上下文中"继承"目标偏移行为;更反直觉的是,指令层级遵循能力(system vs user prompt 优先级)与偏移抗性之间缺乏相关性——Gemini 不遵循 system prompt 但偏移抗性不差,Qwen3 遵循 system prompt 但仍被传染。
- Judge Reliability Harness: Stress Testing the Reliability of LLM Judges
-
提出 Judge Reliability Harness(JRH),一个开源框架,通过 label flip、格式不变性、语义改写、冗余偏差、随机稳定性 等合成测试系统评估 LLM Judge 的可靠性,在四个基准(FORTRESS、HarmBench、Persuade、AgentHarm)上对四个 SOTA Judge 进行压力测试,发现没有任何一个 Judge 在所有场景下都可靠。
- Judge's Verdict: A Comprehensive Analysis of LLM Judge Capability Through Human Agreement
-
提出 Judge's Verdict Benchmark——两步评估框架,通过相关性过滤 + Cohen's Kappa 人类相似性测试,从 54 个 LLM 中识别 27 个 Tier 1 评委(23 人类相似型 + 4 超一致型),揭示相关性不足以评估 LLM 评委质量。
- LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News
-
提出 LiveNewsBench,一个定期更新的、基于新鲜新闻事件自动生成 QA 对的基准,用于评估 LLM 代理式网页搜索能力,有效隔离了模型内部记忆与真实搜索能力。
- LiveNewsBench: Evaluating LLM Web Search Capabilities with Freshly Curated News
-
提出 LiveNewsBench,一个自动从近期新闻生成的、定期更新的 benchmark,通过多跳、事实性问答评估 LLM 的 agentic web search 能力,有效分离模型内部知识与检索能力,性能范围从 11% 到 90%,展现出强区分力。
- M2-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining
-
提出 M2-Miner,首个基于 MCTS 的自动化移动 GUI 代理数据挖掘框架,通过 InferAgent/OrchestraAgent/JudgeAgent 三代理协作、意图回收策略和渐进式模型闭环训练,以 18 倍低于人工标注的成本生成 SOTA 质量的数据。
- M²-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining
-
提出 M²-Miner,首个基于 MCTS 的移动端 GUI agent 自动数据挖掘框架,通过 InferAgent/OrchestraAgent/JudgeAgent 三智能体协作将挖掘效率提升 64 倍,结合 intent recycling 策略丰富意图多样性,训练的 GUI agent 在多个 benchmark 上达到 SOTA。
- MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains
-
提出 MC-Search,首个面向代理式多模态 RAG 的基准,包含 3,333 个高质量样本、5 种推理拓扑结构和步级标注的推理链,同时引入过程级评估指标和 Search-Align 对齐框架显著提升开源 MLLM 的搜索规划能力。
- MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains
-
提出 MC-Search,首个面向 agentic 多模态 RAG 的 benchmark,包含 3,333 个高质量样本(平均 3.7 跳),覆盖 5 种推理拓扑结构,通过 HAVE 验证确保每步必要性,并引入 Search-Align 过程监督微调框架使开源模型的检索规划能力大幅提升(Qwen2.5-VL-7B F1 提升 +13.7)。
- NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
-
提出NewtonBench,一个包含12个物理领域324个任务的LLM科学法则发现基准,通过"反事实法则平移"生成可防止记忆化的新颖任务,要求智能体通过交互式实验探索发现隐藏的物理方程,发现GPT-5最佳(75.9%符号准确率)但在复杂系统中急剧退化(40.3%),且代码工具对强模型反而有负面效果。
- OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety
-
提出 OpenAgentSafety,一个综合性 AI agent 安全评估框架,包含 350+ 可执行任务、真实工具集(浏览器/终端/文件系统/消息平台)、多轮多用户交互场景,揭示即使最先进的 LLM 在 49%-73% 的安全敏感任务中表现出不安全行为。
- PerfGuard: A Performance-Aware Agent for Visual Content Generation
-
提出 PerfGuard,一个性能感知的 agent 框架用于视觉内容生成,通过多维性能评分矩阵替代文本描述来建模工具能力边界,结合自适应偏好更新和能力对齐规划优化,显著提升工具选择准确率(错误率从 77.8% 降至 14.2%)和视觉生成质量。
- PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement
-
提出 PhyScensis,一个结合物理引擎的 LLM agent 框架,通过空间与物理谓词驱动的求解器生成高复杂度、物理准确的 3D 场景,在视觉质量、语义正确性和物理精度上显著超越先前方法,并成功用于机器人操作策略训练。
- Reducing Belief Deviation In Reinforcement Learning For Active Reasoning
-
提出 T³(Truncating Belief-Trapped Trajectories),基于 POMDP 理论分析 LLM 智能体在多轮主动推理中的"信念陷阱"现象,通过检测信念偏离并截断无信息尾部轨迹来修正 RL 训练中的信用分配错误,在 5 个挑战性任务上获得最高 30 分的性能提升并节省 34% 的 token 开销。
- RefTool: Reference-Guided Tool Creation for Knowledge-Intensive Reasoning
-
提出 RefTool 框架基于外部参考资料(教材、知识片段)自动创建可执行 Python 工具,解决了现有工具创建方法依赖 LLM 内在知识在专业领域失败的问题,在因果推理、物理和化学任务上平均超过已有方法 12.3%。
- REMem: Reasoning with Episodic Memory in Language Agents
-
提出 REMem,一个面向语言 agent 的情节记忆框架,通过混合记忆图(时间感知的 gist 节点 + 事实三元组节点)和工具增强的 agentic 推理,在情节回忆和情节推理任务上分别比 SOTA 提升 3.4% 和 13.4%。
- Simuhome A Temporal- And Environment-Aware Benchmark For Smart Home Agents
-
SimuHome 是一个基于 Matter 协议的高保真智能家居仿真器和 600 集评估基准,支持环境变量动态变化和时间加速调度评估,揭示了工作流调度是当前 LLM 代理最持久的挑战。
- SimuHome: A Temporal- and Environment-Aware Benchmark for Smart Home LLM Agents
-
提出 SimuHome,一个基于 Matter 协议的时间加速智能家居模拟器及 600 episode benchmark,首次模拟设备操作对环境变量的持续影响并评估工作流调度能力,发现工作流调度是当前 LLM agent(包括 GPT-5.1)最难突破的挑战。
- Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents
-
提出 HPL 框架解决长时序 LLM Agent 中偏好学习的粒度不匹配问题,通过三级 DPO(轨迹级+步骤级+动作组级)和双层课程学习(子任务复杂度×样本难度),在 ALFWorld/WebShop/InterCode-SQL 上显著超越 ETO 和 IPR 等基线(平均 59.44 vs 55.43/55.49)。
- SR-Scientist: Scientific Equation Discovery With Agentic AI
-
提出 SR-Scientist 框架,将 LLM 从简单的方程提议者提升为自主 AI 科学家,通过代码解释器工具进行数据分析和方程评估,在长时程交互中自主发现科学方程,并结合强化学习进一步提升能力。
- The Controllability Trap: A Governance Framework for Military AI Agents
-
提出 Agentic Military AI Governance Framework (AMAGF),将人类对军事AI agent的控制从"有/无"的二元判断转变为以 Control Quality Score (CQS) 为核心的连续量化监控体系,涵盖预防-侦测-纠正三大支柱。
- The Controllability Trap: A Governance Framework for Military AI Agents
-
提出 Agentic Military AI Governance Framework (AMAGF),一个围绕可测量的控制质量分数 (CQS) 构建的军事 AI 代理治理框架,通过预防-检测-纠正三个支柱应对六类代理治理失败。
- The Limits of Long-Context Reasoning in Automated Bug Fixing
-
系统评估当前 LLM 在长上下文代码调试中的能力极限,发现 agentic 工作流的成功来自任务分解而非长上下文推理(成功轨迹仅消耗 20-30K token),64K token 单次补丁生成中性能急剧下降(GPT-5-nano 0%),揭示名义上下文长度与实际可用上下文能力之间的显著差距。
- The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution
-
提出 Toolathlon,一个覆盖 32 个软件应用、604 个工具和 108 个任务的语言 Agent 基准,强调真实多样的环境状态和长程多步交互(平均约 20 轮工具调用),最强模型 Claude-4.5-Sonnet 仅达 38.6% 成功率。
- ToolTree: Efficient LLM Agent Tool Planning via Dual-Feedback Monte Carlo Tree Search and Bidirectional Pruning
-
提出 ToolTree,一种基于 MCTS 的 LLM Agent 工具规划框架,通过执行前/后双阶段评估和双向剪枝机制,在固定计算预算下实现前瞻性工具选择,在 4 个 benchmark 上平均提升约 10%。
- ToolWeaver: Weaving Collaborative Semantics for Scalable Tool Use in Large Language Models
-
提出ToolWeaver,通过协作感知向量量化将每个工具表示为层级离散编码序列(而非单一token),实现词表对数级扩展(47000+工具仅需~512个新token),在ToolBench上全面超越ToolGen基线,同时将语言模型困惑度退化从16.5倍降至4倍。
- Toward a Dynamic Stackelberg Game-Theoretic Framework for Agentic AI Defense Against LLM Jailbreaking
-
将LLM越狱攻防建模为动态Stackelberg扩展式博弈,结合RRT (Rapidly-exploring Random Trees) 探索prompt空间,提出"Purple Agent"防御架构——以"Think Red to Act Blue"理念通过内部对抗模拟预判攻击路径并预防性封堵。
- Towards Scalable Oversight via Partitioned Human Supervision
-
提出基于分区人类监督的可扩展监督框架:当任务超越单个专家能力时,利用领域专家提供的互补标签(排除错误选项)构造无偏准确率估计器,实现无需完整标注即可评估和训练 AI 系统。
- VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning
-
提出 VideoMind,一个基于角色分工的视频语言Agent框架,通过 Planner-Grounder-Verifier-Answerer 四角色协作实现时序grounded视频推理,核心创新是 Chain-of-LoRA 机制——在统一基座模型上通过切换LoRA适配器实现角色无缝切换,2B模型即超越GPT-4o和Gemini-1.5-Pro。
- VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Understanding
-
VideoMind 提出一种基于 Chain-of-LoRA 机制的视频语言 Agent,通过 Planner、Grounder、Verifier、Answerer 四个角色的协同工作,在统一 LMM 骨干上实现高效的时序定位视频推理,2B 模型即超越 GPT-4o 和 Gemini-1.5-Pro。
- Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning for Web Agents
-
受Bloom教育分类学启发,提出 Web-CogKnowledge Framework,将Web Agent能力分解为 Factual→Conceptual→Procedural 三层知识的渐进式学习,配合 Knowledge-driven CoT 推理框架训练得到 Web-CogReasoner,在Web-CogBench上以84.4%超越Claude Sonnet 4 (76.8%)和Gemini 2.5 Pro (80.4%)。
- Web-CogReasoner: Towards Knowledge-Induced Cognitive Reasoning in Web Agents
-
Web-CogReasoner 借鉴 Bloom 教育分类法,将 Web Agent 的能力分解为事实知识、概念知识和程序性知识三层体系,构建结构化的知识驱动 CoT 推理框架,在 Web 导航任务上显著超越现有方法。
- WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents
-
WebArbiter 提出一种推理优先、原则引导的过程奖励模型 (WebPRM),将奖励建模形式化为文本生成任务,通过推理蒸馏+强化学习的两阶段训练,在 WebPRMBench 上以 7B 模型超越 GPT-5 达 9.1 个百分点。
- ZeroDayBench: Evaluating LLM Agents on Unseen Zero-Day Vulnerabilities for Cyberdefense
-
提出首个评估 LLM Agent 发现并修补新型零日漏洞的 benchmark,通过将真实 CVE 移植到不同代码库创建 22 个新颖高危漏洞任务,在 5 个信息层级评估 Agent 能力,发现最强模型在 zero-day 级别仅 14.4% 通过率,说明自主漏洞发现仍是重大挑战。