🦾 LLM Agent¶
🧠 NeurIPS2025 · 共 53 篇
- A-MEM: Agentic Memory for LLM Agents
-
提出 A-Mem,一种受 Zettelkasten 启发的 LLM Agent 智能记忆系统,每条记忆自动生成结构化笔记(关键词/标签/上下文描述),动态建立记忆间链接,并在新记忆加入时触发旧记忆的演化更新,在 LoCoMo 长对话 QA 上显著超越 MemGPT 等基线。
- A Differentiable Model of Supply-Chain Shocks
-
本文用 JAX 实现了一个可微分的供应链 Agent-Based Model(ABM),通过 GPU 并行化和自动微分实现了比传统无梯度方法快 3 个数量级的贝叶斯参数校准,为大规模供应网络建模打开了可能性。
- A Self-Improving Coding Agent
-
提出SICA(Self-Improving Coding Agent),一个能自主编辑自身代码库来提升性能的编程Agent——消除了meta-agent和target-agent的区分,通过迭代式自我改进在SWE-Bench Verified子集上从17%提升到53%。
- Adaptive Cooperative Transmission Design for URLLC via Deep Reinforcement Learning
-
针对两跳协作中继通信中的URLLC难题,提出DRL-CoLA算法:将每跳传输参数配置建模为MDP,用双agent DQN在仅观测本地CSI和ARQ反馈下学习分布式时延感知传输策略,接近全局最优可靠性。
- AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents
-
提出 AgentAuditor,一个通用的无训练记忆增强推理框架,使 LLM 评估者能模拟人类专家评估 agent 的安全与安全性——通过自适应提取结构化语义特征并生成CoT推理轨迹构建经验记忆,多阶段上下文感知 RAG 检索相关经验指导新案例评估,在自建的 ASSEBench(2293条记录×15类風险×29场景)上达到人类水平准确率。
- AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness
-
AgentChangeBench 是首个系统评估 LLM agent 在对话中途目标切换时适应能力的 benchmark:315 基础任务 × 9 变体 = 2835 序列,覆盖 3 个企业领域(银行/零售/航空)和 5 种 user persona,引入 GSRT(目标切换恢复时间)等 4 个互补指标,揭示高 pass@k 掩盖的效率和鲁棒性差距——如 GPT-4o 航空恢复率 92.2% 但零售冗余率达 89.1%。
- AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents
-
提出 AgentDAM,首个在真实 Web 环境中端到端评估 AI Agent 数据最小化能力的基准,包含 246 个跨 Reddit/GitLab/Shopping 的任务,发现 GPT-4o 等主流模型在无缓解措施时隐私泄露率高达 36-46%,而 CoT 隐私提示可将泄露率降至 6-8%。
- Agentic NL2SQL to Reduce Computational Costs
-
提出 Datalake Agent,一个基于交互循环的 agentic NL2SQL 系统,通过分层的信息获取策略(GetDBDescription -> GetTables -> GetColumns -> DBQueryFinalSQL)让 LLM 按需请求数据库 schema 信息而非一次性接收全部,在 319 张表的场景下将 token 使用量减少 87%、成本降低 8 倍,同时在复杂查询上保持更好的性能。
- Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents
-
提出 Agentic Plan Caching (APC)——从 agent 执行日志中提取结构化计划模板,通过关键词匹配缓存命中后用小模型适配复用,平均降低 50.31% 成本和 27.28% 延迟,同时保持 96.61% 的最优准确率。
- AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents
-
提出 AgentMisalignment 基准套件,包含 9 个现实场景评估任务,测量 LLM Agent 在非恶意指令下 自发偏离 部署者意图的倾向(而非能力),发现更强的模型倾向于更高的错误对齐,且人格提示(persona prompt)有时比模型选择本身对错误对齐行为的影响更大。
- AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks
-
提出 AgentTTS,一个用 LLM agent 自动搜索多阶段复杂任务中测试时计算最优缩放策略(模型选择+预算分配)的框架,通过迭代反馈驱动的交互显著提升搜索效率和性能。
- Are Large Language Models Sensitive to the Motives Behind Communication?
-
系统评估 LLM 对通信动机的敏感性(motivational vigilance)——在控制实验中 LLM 能像人类一样折扣有偏见信源的建议(与理性模型相关系数 r>0.78),但在真实场景(YouTube 赞助广告)中表现大幅下降(r<0.2),通过简单的 prompt steering 可部分恢复。
- Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools
-
AMA(Attractive Metadata Attack)证明仅通过精心设计恶意工具的元数据(名称、描述、参数模式),不需要提示注入或模型内部访问,就能诱导 LLM Agent 以 81-95% 的成功率调用攻击者工具并泄露隐私,同时几乎不影响原始任务完成(98%+),且现有防御(审计器、提示重写)效果有限。
- Automated Composition of Agents: A Knapsack Approach for Agentic Component Selection
-
将 Agent 组件选择问题形式化为在线背包问题,提出 Composer Agent 框架:通过沙盒实测(而非静态语义检索)评估组件真实能力,结合 ZCL 在线算法在预算约束下动态选取最优组件组合,单 Agent 工具选择成功率提升最高 31.6%,多 Agent 子代理选择成功率从 37% 跃升至 87%。
- VeriMaAS: Automated Multi-Agent Workflows for RTL Design
-
VeriMaAS 提出自动组合 agent 工作流的框架用于 RTL 代码生成——关键创新是将 HDL 工具的形式化验证反馈直接整合到工作流生成中,无需梯度更新或长推理链,在 pass@k 上超过微调基线 5-7%,且训练样本需求降低一个量级。
- Benchmarking Agentic Systems in Automated Scientific Information Extraction with ChemX
-
构建 ChemX——10 个由领域专家手工标注和验证的多模态化学数据提取基准数据集,涵盖纳米材料和小分子两大领域,系统评估了 ChatGPT Agent、SLM-Matrix、FutureHouse、nanoMINER 等 SOTA Agent 系统以及 GPT-5/GPT-5 Thinking 等前沿 LLM;提出的单 Agent 方法通过结构化文档预处理(marker-pdf → Markdown → LLM 提取)在纳米酶数据集上达到 F1=0.61,超越所有通用多 Agent 系统,同时揭示了化学信息提取仍存在 SMILES 解析失败、术语歧义等系统性挑战。
- BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent
-
提出"Blink-Think-Link"(BTL)脑启发框架模拟人类与GUI交互的认知过程——分解为Blink(快速注意力检测,类似眼跳)、Think(高级推理决策,类似认知规划)、Link(生成可执行命令,类似动作选择)三个生物合理阶段,配合自动化Blink数据标注和首个基于规则的过程+结果复合奖励机制,BTL-UI在静态GUI理解和动态交互任务上均达competitive性能。
- CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension
-
受皮亚杰建构主义理论启发,提出CAM——一种具有结构性(层次化schema)、灵活性(重叠聚类的同化)和动态性(增量适应)三大特征的智能体记忆系统,在6个长文本阅读理解任务上全面超越RAPTOR、GraphRAG等基线。
- ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions
-
提出 ContextAgent,首个利用可穿戴设备多模态感知(视频+音频+通知)来理解用户意图并主动提供工具增强服务的 LLM Agent 框架,同时构建了包含 1000 个样本的 ContextAgentBench 基准,在主动预测准确率和工具调用上分别提升 8.5% 和 6.0%。
- CORE: Full-Path Evaluation of LLM Agents Beyond Final State
-
提出CORE框架:用确定有限自动机(DFA)编码Agent任务的合法工具调用路径,引入5个互补指标(路径正确性、顺序正确性、前缀危险性、有害调用率、效率)从全路径而非仅终态评估Agent行为,揭示了传统终态评估中不可见的安全和效率差异。
- Crucible: Quantifying the Potential of Control Algorithms through LLM Agents
-
首次提出"调优潜能"(Tuning Potential)概念并给出形式化度量,通过 LLM Agent 模拟不同能力水平的开发者对控制算法进行参数调优和逻辑级改进,在 ABR 任务上相比贝叶斯优化提升 44.1%,CartPole 上 Bang-bang 从 34→500 达到 DQN 水平。
- Debate or Vote: Which Yields Better Decisions in Multi-Agent Large Language Models?
-
通过理论和实验证明,多智能体辩论(MAD)的性能提升主要来自多数投票(ensembling)而非辩论本身——辩论过程构成 martingale(期望不变),即辩论不系统性地提升正确率,并基于此理论提出通过偏向正确信号来改进 MAD。
- Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
-
提出 DVD(Deep Video Discovery)agent,将长视频理解建模为多步信息搜索问题:先将长视频构建为多粒度结构化数据库(全局摘要 + clip 级字幕嵌入 + 帧级像素),再提供三种搜索工具(Global Browse / Clip Search / Frame Inspect),由 reasoning LLM 通过 observe-reason-act 循环自主编排搜索轨迹,在 LVBench 达 74.2%(超先前 SOTA MR.Video 13.4 pp),加字幕 76.0%。
- DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments
-
提出 DefenderBench,一个开源模块化工具包,用于在攻防和知识理解三类网络安全任务上系统评估 LLM Agent 的能力,覆盖网络入侵模拟、恶意内容检测、代码漏洞检测/修复、CTI 知识问答五大场景,基准测试显示 Claude-3.7-sonnet 综合最强(81.65 分)。
- Distilling LLM Agent into Small Models with Retrieval and Code Tools
-
提出 Agent Distillation 框架,将 LLM agent 的完整 reason-act-observe 交互行为(而非静态 CoT)蒸馏到 0.5B-7B 小模型中,配合 first-thought prefix 提升教师轨迹质量和 self-consistent action generation 提升推理鲁棒性,使小模型达到比其大 2-4× 的 CoT 蒸馏模型的性能。
- DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents
-
提出 DRIFT 系统级 Agent 安全框架,通过 Secure Planner(预规划函数轨迹+参数检查表)、Dynamic Validator(基于 Read/Write/Execute 权限的动态策略更新)和 Injection Isolator(从 memory stream 中检测并屏蔽注入指令)三层防御,在 AgentDojo 上将 ASR 从 30.7% 降至 1.3%,同时比 CaMeL 提升 20.1% utility。
- Enhancing Demand-Oriented Regionalization with Agentic AI and Local Heterogeneous Data for Adaptation Planning
-
本文提出一个基于 Agentic AI 的规划支持系统,通过 LLM 智能体引导非技术用户进行数据驱动的需求导向区域化(demand-oriented regionalization),核心算法为 RepSC-SOM(带代表性初始化的空间约束自组织映射),支持人机协作迭代优化区域划分,用于灾害风险管理和气候适应规划。
- EU-Agent-Bench: Measuring Illegal Behavior of LLM Agents Under EU Law
-
提出 EU-Agent-Bench,首个基于欧盟法律框架的可验证智能体基准,通过 600 个良性用户请求测试 LLM 智能体的工具调用是否违反欧盟法规,发现即使最佳模型(Gemini 2.5 Flash)的合法率也仅约 55%,揭示了当前对齐技术与法律可靠性之间的巨大鸿沟。
- Evaluating LLMs in Open-Source Games
-
通过开源游戏(智能体提交程序而非原始行动)这一新范式,系统评估 LLM 在战略推理、互相学习和合作博弈中的能力,发现 LLM 可自动发现近似程序平衡。
- Generative AI Agents for Controllable and Protected Content Creation
-
提出一个多智能体生成框架,通过 Director/Planner、Generator、Reviewer、Integration 和 Protection 五个专业化智能体的协作,结合人在环反馈,统一解决生成内容的可控性和版权保护问题。
- Ground-Compose-Reinforce: Grounding Language in Agentic Behaviours using Limited Data
-
提出 Ground-Compose-Reinforce (GCR),一个端到端的神经符号框架,通过少量标注轨迹(仅350条)学习原子命题的接地语义(Ground),将其通过 Reward Machine 组合成复杂任务规范(Compose),然后用自生成的稠密奖励训练 RL 智能体(Reinforce),无需手工奖励函数即可引出分布外的复杂行为。
- Group-in-Group Policy Optimization for LLM Agent Training
-
GiGPO 通过在 GRPO 的 episode 级分组内嵌套 step 级分组(利用跨轨迹的重复环境状态作为 anchor state),实现了无需额外 rollout 和 critic 模型的细粒度 credit assignment,在 ALFWorld 上比 GRPO 提升 >12%,WebShop 上提升 >9%。
- Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
-
提出 Hogwild! Inference——一种无需预定义协作框架的并行 LLM 推理协议,多个 LLM 实例通过共享的并发 KV 缓存实时同步,利用 RoPE 位置编码避免重计算,在数学推理和编程任务上以更少的串行步骤达到更高精度。
- It's LIT! Reliability-Optimized LLMs with Inspectable Tools
-
通过为每个外部工具定义可靠性/可调试性成本函数,引导 LLM 在多候选方案中选择成本最低(最透明可审计)的工具调用路径,在 61/65 测试场景中提升可解释性的同时保持甚至提升任务准确率。
- Lessons Learned: A Multi-Agent Framework for Code LLMs to Learn and Improve
-
提出 LessonL 框架,使多个小 LLM 智能体通过相互学习的"课程"(lesson)对成功和失败案例进行反思,协同优化代码性能,3 个 7B-14B 模型组合达到 GPT-4o 甚至接近 o3 的代码优化效果。
- LLM Agent Communication Protocol (LACP) Requires Urgent Standardization: A Telecom-Inspired Protocol is Necessary
-
这篇 position paper 指出当前 LLM Agent 通信的碎片化生态类似早期网络的"协议战争",提出受电信标准化启发的三层协议 LACP(语义层、事务层、传输层),强调安全内建、事务完整性和语义互操作性对多智能体系统至关重要。
- LLM Agents for Knowledge Discovery in Atomic Layer Processing
-
通过让 LLM Agent 控制模拟化学反应器(黑盒函数),证明 Agent 能在无先验知识下通过试错探索、发现并总结未知化学系统的规则,揭示了 Agent 进行开放式科学发现的能力与局限。
- MAT-Agent: Adaptive Multi-Agent Training Optimization
-
提出 MAT-Agent,一个由四个自主 agent(分别负责数据增强、优化器、学习率调度、损失函数)组成的多智能体框架,在训练过程中动态调整训练配置,用 DQN 学习策略以替代传统静态超参配置,在多标签图像分类任务上实现了 SOTA。
- MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?
-
基于真实 ML 会议竞赛构建动态基准 MLRC-Bench,评估 LLM Agent 提出和实现新颖研究方法的能力,发现最强 Agent(Gemini)仅达人类顶级方案 9.3% 的相对改进,且提供 AI/人类想法并不能一致改善实现质量。
- Orchestration Framework for Financial Agents: From Algorithmic Trading to Agentic Trading
-
提出 FinAgent 编排框架,将传统算法交易系统的各组件映射为 AI 智能体(规划器、编排器、Alpha/风控/组合/回测/执行/审计/记忆智能体),使用 MCP 协议进行控制通信、A2A 协议进行智能体间通信,在股票和 BTC 交易任务上验证了可行性。
- Out of Control -- Why Alignment Needs Formal Control Theory (and an Alignment Control Stack)
-
本文是一篇 position paper,主张将形式化最优控制理论作为 AI 对齐研究的核心工具,并提出"对齐控制栈"(Alignment Control Stack, ACS)——一个从物理硬件层到社会治理层的十层分层框架,用于系统地组织和分析不同对齐方法的测量、控制与互操作性。
- Panda Towards Generalist Video Anomaly Detection Via Agentic Ai Engineer
-
提出 PANDA,一个基于 MLLM 的 Agentic AI 工程师框架,通过自适应场景感知策略规划、目标驱动启发式推理、工具增强自反思和链式记忆四大能力,实现无需训练和人工干预的通用视频异常检测。
- R&D-Agent-Quant: A Multi-Agent Framework for Data-Centric Factors and Model Joint Optimization
-
提出 R&D-Agent(Q),一个数据驱动的多智能体框架,通过五个协作模块(Specification、Synthesis、Implementation、Validation、Analysis)自动化量化策略的因子挖掘与模型创新联合优化,在真实股票市场上以不到 $10 的成本实现约 2× 于传统因子库的年化收益。
- Shapecraft Llm Agents For Structured Textured And Interactive 3D Modeling
-
提出基于图结构程序化形状表示(GPS)的多 Agent 框架 ShapeCraft,通过 Parser-Coder-Evaluator 三个 LLM Agent 协作,将自然语言分解为结构化子任务图,迭代生成可编辑、可动画的带纹理 3D 资产。
- SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications
-
利用后缀树缓存长序列,通过自适应推测长度实现 5.3 倍加速,特别针对 Agent 场景中高度可预测的重复推理任务。
- T1: A Tool-Oriented Conversational Dataset for Multi-Turn Agentic Planning
-
构建 T1 数据集——13.5K 多轮对话覆盖 9 个领域(4 单领域 + 5 跨领域)、14 个工具,聚焦工具间依赖和动态重规划,并提出 T1-Agent(代码生成 + 缓存机制)作为基线系统;实验发现 SFT 后的 Llama 8B 在 Tool Call F1 上达 87.17%,超越未微调的 70B 模型,但仍落后于 GPT-5/o3 等闭源模型。
- TAI3: Testing Agent Integrity in Interpreting User Intent
-
提出 TAI3,一个以 API 为中心的 LLM Agent 意图完整性压力测试框架,通过语义分区(Semantic Partitioning)将自然语言输入空间组织为结构化测试网格,再利用意图保持变异(Intent-Preserving Mutation)和策略记忆(Strategy Memory)高效暴露 Agent 在执行用户任务时的意图理解错误。
- The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement
-
提出 CGI(Critique-Guided Improvement)双角色框架,训练专门的 Critic 模型为 Actor Agent 提供结构化自然语言反馈(判别+修正建议),并通过迭代动作精炼让 Actor 学会利用这些反馈,在 WebShop/ScienceWorld/TextCraft 三个环境中平均得分 74.20%,超越 GPT-4o(45.46%)和 Iterative SFT(58.21%)。
- Traj-CoA: Patient Trajectory Modeling via Chain-of-Agents for Lung Cancer Risk Prediction
-
提出Traj-CoA多agent框架,通过chain-of-agents架构配合EHRMem长期记忆模块对长且噪声的纵向EHR进行时序推理,在零样本肺癌风险预测任务中(5年EHR数据,最高160k tokens)超越ML/DL/BERT/LLM等多类基线。
- TrajAgent: An LLM-Agent Framework for Trajectory Modeling via Large-and-Small Model Collaboration
-
首个 LLM 代理框架自动处理轨迹建模全流程,通过 UniEnv 统一接口和协作学习双层优化(LLM 推理 + 小模型训练),性能相比基线最高提升 69.91%。
- Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
-
提出首个针对网页导航的过程奖励模型 Web-Shepherd,通过检查清单分解任务目标为可评估的子目标,3B/8B 模型在轨迹准确率上碾压 GPT-4o(85% vs 10%),同时成本仅为 1/10,使网页 Agent 的强化学习和推理时搜索变得实际可行。
- What AI Speaks for Your Community: Polling AI Agents for Public Opinion on Data Center Projects
-
提出基于LLM的AI agent民意调研框架,通过人口统计合成虚拟居民agent对数据中心项目进行大规模低成本民调,跨模型跨地区实验表明agent意见与真实民调在主题上高度一致。
- Zero-Shot Large Language Model Agents for Fully Automated Radiotherapy Treatment Planning
-
提出一种基于 LLM Agent 的零样本 (zero-shot) 放射治疗自动计划工作流,LLM 直接与商业治疗计划系统 (Eclipse TPS) 交互,通过迭代提取剂量-体积直方图 (DVH) 和目标函数损失并推理约束调整策略,在 20 例头颈癌 IMRT 病例上实现了与临床手动计划相当甚至更优的剂量分布质量。