Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models¶

会议: ICLR 2026
arXiv: 2510.04618
代码: https://github.com/ace-agent/ace
领域: Agent
关键词: context engineering, self-improving agent, prompt optimization, evolving memory, playbook

一句话总结¶

提出 ACE（Agentic Context Engineering）框架，将 context 视为不断演化的"策略手册"（playbook），通过 Generator-Reflector-Curator 三角色分工和增量式 delta 更新来持续积累和精炼策略，解决了现有 prompt 优化中的简洁偏差和上下文坍塌问题，在 agent 任务上平均提升 10.6%、金融任务提升 8.6%，且自适应延迟降低 86.9%。

研究背景与动机¶

领域现状：Context adaptation（通过修改 LLM 输入而非权重来改进性能）已成为构建可伸缩 AI 系统的核心范式。现有方法包括 prompt optimization（GEPA、MIPROv2）、test-time memory（Dynamic Cheatsheet）等。
现有痛点：(1) 简洁偏差（brevity bias）：多数 prompt 优化器追求简洁通用的指令，压缩掉了领域特定的策略、工具使用指南和常见失败模式；(2) 上下文坍塌（context collapse）：单体重写方式在迭代过程中逐渐退化为更短、信息更少的摘要——实验中观察到 context 从 18282 token 突然坍塌到 122 token，性能随之骤降。
核心矛盾：agent 和知识密集应用需要全面详尽的领域知识，但现有方法却在压缩知识。LLM 与人不同——人受益于简洁概括，LLM 反而在详尽 context 下表现更好。
本文要解决什么？ 如何构建一种 context 适配方法，既能持续积累知识又不会坍塌退化？
切入角度：将 context 视为"evolving playbook"而非"optimized prompt"，用结构化的增量更新替代整体重写。
核心idea一句话：context 应该是持续增长和精炼的策略手册，而非压缩后的简洁指令。

方法详解¶

整体框架¶

ACE 由三个角色组成：Generator（生成推理轨迹）→ Reflector（从轨迹中提取教训和洞见）→ Curator（将教训整合为结构化的 delta 更新，merge 到现有 context 中）。支持离线（system prompt 优化）和在线（test-time memory）两种模式。

关键设计¶

三角色分工（Generator → Reflector → Curator）:
做什么：将 context 构建的不同职责解耦到专门的角色
核心思路：Generator 用当前 context 解决新问题，产生执行轨迹；Reflector 分析轨迹，提取具体的成功策略和失败教训（可多轮迭代精炼洞察）；Curator 将洞察转化为结构化 bullet 并 merge 到 context 中
设计动机：避免把所有职责堆到单一模型上造成瓶颈。消融实验显示单独的 Reflector 角色是性能提升的关键来源
增量式 Delta 更新（替代整体重写）:
做什么：用局部化的 bullet 增删改替代 context 的整体重写
核心思路：context 表示为 bullet 集合，每个 bullet 有唯一 ID + 有用/有害计数 + 内容。每次适配只生成小量 delta（新 bullet 或已有 bullet 的修改），通过轻量非 LLM 逻辑确定性 merge，可并行处理
设计动机：彻底解决 context collapse——因为从不执行全文重写，知识只能添加或局部修改，不会被意外压缩掉
Grow-and-Refine 机制:
做什么：平衡 context 的持续增长和冗余控制
核心思路：新 bullet 追加到 context，已有 bullet 原地更新（如增加计数器）。通过语义嵌入对比做去重（de-duplication），可以在每次 delta 后主动执行或在超出 context window 时懒惰执行
设计动机：确保 context 的规模是可控的，不会无限增长

损失函数 / 训练策略¶

无需训练模型权重。ACE 是纯 context adaptation 方法。离线模式下在训练集上多 epoch 迭代构建 context；在线模式下在测试时逐样本更新。关键超参：Reflector 最大精炼轮数 5，离线最大 epoch 5，batch size 1。值得注意的是无需标注也能工作——利用执行反馈（如代码执行成功/失败）作为自然信号。

实验关键数据¶

主实验（AppWorld Agent Benchmark）¶

方法	需要标注	Test-Normal TGC	Test-Challenge TGC	Average
ReAct baseline	-	63.7	41.5	42.4
+ ICL	✓	64.3	46.0	46.0
+ GEPA	✓	64.9	46.0	46.4
+ ACE (有标注)	✓	76.2	57.3	59.4
+ ACE (无标注)	✗	75.0	54.4	57.2
+ DC (online)	✗	65.5	52.3	51.9
+ ACE (online)	✗	69.6	66.0	59.5

消融实验（金融 benchmark）¶

方法	FiNER Acc	Formula Acc	Average
Base LLM	70.7	67.5	69.1
GEPA	73.5	71.5	72.5
ACE	78.3	85.5	81.9

关键发现¶

ACE 在 AppWorld 上平均提升 17%（offline 有标注），在排行榜上用开源模型 DeepSeek-V3.1 达到了 GPT-4.1 驱动的 IBM CUGA（排行榜第一）的平均水平，且在 harder test-challenge split 上超过了它
无标注也很强：ACE 在无标注模式下仍提升 14.8%，利用执行反馈即可自我改进
金融任务上 ACE 比 GEPA 高 9.4%（72.5→81.9），暴力积累领域知识的策略在知识密集型任务上优势明显
适配延迟降低 86.9%：增量 delta 更新比整体重写快得多
消融实验确认 Reflector 角色和多 epoch 精炼各自贡献了显著提升

亮点与洞察¶

"playbook 而非 prompt"的理念转变：context 不应被压缩，而应被持续充实。这与 RAG、long-context 等趋势一致，为 context engineering 提供了清晰的设计哲学
增量 delta 更新是关键创新：彻底杜绝了 context collapse，且可并行 merge，是一个简单但极其有效的工程设计
无监督自改进能力：仅靠执行反馈就能构建有效 context，为真正的 self-improving agent 铺平道路
三角色分工模式可复用：Generator-Reflector-Curator 的模式可以迁移到其他需要从经验中学习的 LLM 系统

局限性 / 可改进方向¶

随着 bullet 数量增长，context 可能超出 context window，需要更智能的检索或压缩策略
去重依赖语义嵌入的质量，相似但不完全重复的 bullet 可能积累
Generator/Reflector/Curator 强制使用同一模型，限制了利用不同大小模型优化成本的灵活性
在线模式下的顺序依赖（先见到的样本影响后续 context）是否引入偏差未深入分析

补充讨论¶

为什么 Context Engineering 比 Prompt Engineering 更重要？¶

Prompt Engineering 是静态的——一旦写好 system prompt 就固定不变。Context Engineering 是动态的——根据 agent 的运行经验持续演化上下文，更符合真实 agent 在复杂环境中的需求。Playbook 的 delta 更新机制是这一理念的具体实现。

评分¶

新颖性: ⭐⭐⭐⭐ "evolving playbook" 理念和 delta 更新设计有实际创新
实验充分度: ⭐⭐⭐⭐⭐ 两类 benchmark、多基线、消融完善、排行榜对比
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，概念有说服力，叙事流畅
价值: ⭐⭐⭐⭐⭐ context engineering 方向的重要工作，实用性极强