跳转至

Lightweight LLM Agent Memory with Small Language Models

会议: ACL 2026
arXiv: 2604.07798
代码: 无
领域: LLM 智能体 / 记忆系统
关键词: 智能体记忆, 小语言模型, 轻量化检索, 在线-离线解耦, 长期对话

一句话总结

本文提出 LightMem,一种由多个专用小语言模型(SLM)驱动的轻量级 LLM 智能体记忆系统,通过将记忆操作模块化为控制器(SLM-1)、选择器(SLM-2)和写入器(SLM-3),并将在线处理与离线整合解耦,在 LoCoMo 基准上平均 F1 提升约 2.5(相比 A-MEM),同时实现 83ms 检索延迟和 581ms 端到端延迟。

研究背景与动机

领域现状:LLM 驱动的智能体在长期对话、多步推理和任务交互方面表现出色,但受限于上下文窗口,需要外部记忆来维持跨轮次一致性。现有记忆系统可分为两类:基于检索的外部记忆(如 MemoryBank、ReadAgent)效率高但检索噪声大、准确率不稳定;基于 LLM 驱动的记忆操作(如 A-MEM、HiAgent)准确率更高但反复调用大模型累积显著延迟。

现有痛点:(1) 基于检索的方法受限于查询构建和候选过滤的简单性,引入检索噪声导致回答准确率不稳定;(2) LLM 驱动的方法在长期交互中通过重复模型调用实现记忆操作,累积非平凡的运行时开销;(3) 现有系统缺乏在线/离线的明确解耦,导致效率和效果之间的 trade-off 难以优化。

核心矛盾:高频在线记忆操作需要低延迟和可控性,但提升记忆准确率通常需要更强的模型推理能力;将重型抽象和整合操作混入在线路径会严重拖慢响应速度。

本文目标:设计一个轻量级记忆系统,将高频在线记忆操作交给专用 SLM 处理,将重型抽象和整合延迟到离线处理,在有限计算预算下实现高效且准确的记忆调用。

切入角度:SLM 的最新进展使其能够可靠地处理结构化决策任务(如意图路由、查询构建、语义过滤),这些任务更强调可预测行为和低开销,而非最大化生成能力。

核心 idea:通过多个专用 SLM 协同分工处理在线记忆操作(查询解析、检索、写入),将重型整合交给离线大模型处理,在效率和效果之间取得最优平衡。

方法详解

整体框架

LightMem 将记忆操作模块化为在线和离线两条路径。在线路径由三个专用 SLM 驱动:SLM-1(Controller)负责意图建模和检索控制,将用户输入转化为假设查询(HQ)并分配检索预算;SLM-2(Selector)执行两阶段检索——向量粗检索后接语义一致性重排序;SLM-3(Writer)将交互压缩为紧凑的 MTM 条目并增量维护。离线路径由大上下文模型将高价值 MTM 片段蒸馏为去标识化的长期语义知识(LTM),以图结构知识库形式存储。

关键设计

  1. 三层记忆存储(STM/MTM/LTM):

    • 功能:按时间和访问特性组织记忆,支持从即时上下文到长期知识的完整覆盖
    • 核心思路:STM 是 SLM 上下文窗口中的工作记忆,逐轮更新但不持久化;MTM 是个性化情节记忆的唯一载体,存储语义摘要、时间信息、访问统计和用户标识符,容量上限 \(|M_u^{\text{MTM}}| \leq B\)\(B=10^4\));LTM 存储从 MTM 高价值片段离线蒸馏的去标识化语义知识,以轻量图结构组织以支持多跳推理
    • 设计动机:不同时间尺度的信息需要不同的存储和检索策略;用户标识符实现用户级逻辑隔离,平衡隐私、一致性和可扩展性
  2. 两阶段检索(Two-Stage Retrieval):

    • 功能:在固定 Top-\(K\) 预算下从记忆库中检索最相关的记忆集合 \(R_t\)
    • 核心思路:Stage 1 使用元数据约束的向量粗检索,为每个假设查询返回候选集,总预算为 \(2K\)(每个 HQ 分配 \(2K/n\));Stage 2 由 SLM-2 对 \(|C|=2K\) 个候选执行语义一致性检查和相关性判断,压缩为 \(|R_t| \leq K\) 个最终结果。两到一的压缩实现了:(i) 固定候选大小的稳定计算,(ii) 超越向量相似度的语义精炼,(iii) 显式丢弃约一半候选的噪声抑制
    • 设计动机:纯向量检索难以捕捉细粒度语义一致性,但 SLM 直接从全库检索计算代价过高;两阶段设计用高效检索保证覆盖,用 SLM 验证保证精度
  3. 离线整合(Offline Consolidation):

    • 功能:将高价值 MTM 片段增量蒸馏为长期语义知识,保持 LTM 的持续演化
    • 核心思路:大上下文 LLM 在离线路径处理增量批次(新写入或重新激活的 MTM 条目),将片段抽象为隐私保护的知识候选,通过相似度搜索定位 LTM 中最近的语义锚点,在局部邻域内增量插入和链接。置信度衰减机制应用于弱支撑候选以实现自然遗忘
    • 设计动机:将重型抽象操作与在线路径严格解耦,避免增加在线检索和写入延迟;增量处理而非从头重建,保持计算效率

损失函数 / 训练策略

SLM-2 使用 LoRA 在 2000 个构建的 (Query, Subgraph, Path) 样本上微调。其他 SLM 使用量化部署的 Llama-3.2-1B-Instruct(默认)或 Qwen2.5-1.5B-Instruct。MTM 容量上限 \(B=10^4\),超限时通过驱逐陈旧/低价值条目和压缩冗余内容进行维护。离线整合由大上下文 LLM 处理,与在线路径完全解耦。

实验关键数据

主实验

LoCoMo 基准关键结果(GPT-4o-mini 作为响应生成器)

方法 Single-hop F1 Multi-hop F1 Temporal F1 Open-domain F1 Adversarial F1 Token Length
LoCoMo 40.36 25.02 18.41 12.04 69.23 16,910
MemGPT 41.04 26.65 25.52 9.15 43.29 16,977
A-MEM 44.65 27.02 45.85 12.14 50.03 2,520
LightMem 45.81 28.85 46.28 13.52 54.57 1,150

DialSim 基准结果(GPT-4o-mini)

方法 F1 BLEU-1 ROUGE-L METEOR SBERT
LoCoMo 2.55 3.13 2.75 1.64 15.76
A-MEM 3.45 3.37 3.54 2.05 19.51
LightMem 4.12 3.95 4.20 2.48 23.40

消融实验

DialSim 消融(Llama-3.2-1B)

配置 F1 SBERT
LightMem (完整) 4.12 23.40
w/o 语义重排序 3.83 22.82
w/o HQ 和检索路由 3.87 -
w/o MTM 3.75 -
w/o 离线整合 3.96 -
w/o 图结构 - 22.82

延迟分析(GPT-4o-mini)

方法 检索延迟 P50 (ms) 检索延迟 P95 (ms) 端到端 P50 (ms) 端到端 P95 (ms)
A-MEM 856 1583 914 3682
MemGPT 143 451 2087 3451
LightMem 83 167 581 1325

关键发现

  • LightMem 在所有模型规模上(从 GPT-4o 到 Llama-3.2-1B)均一致优于基线,证明其增益不依赖于特定骨干模型
  • 相比 A-MEM,LightMem 的检索延迟降低 10 倍(856ms → 83ms P50),端到端延迟降低约 36%
  • LightMem 使用仅约 1K tokens 的有效上下文就超越了使用 16K+ tokens 的全上下文方法,显著降低推理成本
  • MTM 增长到 10,000 条时,LightMem 因 Stage 2 语义过滤保持稳定性能,而纯向量检索的 F1 从 3.95 降至 3.83
  • 错误注入压力测试显示,SLM-2 语义重排序是最关键的组件,移除导致最大性能下降

亮点与洞察

  • "让合适规模的模型做合适的事"这一思想在记忆系统中得到很好的体现——SLM 处理高频结构化任务,大模型处理低频重型任务
  • 两阶段检索的 2:1 压缩策略简洁有效,用固定候选大小保证计算稳定性,同时通过语义验证抑制检索噪声
  • LTM 的图结构设计支持多跳推理和跨用户知识共享,同时通过去标识化保护隐私

局限与展望

  • SLM-2 需要在构建的数据上微调,对新领域的泛化能力需要进一步验证
  • 离线整合依赖大上下文 LLM,在完全边缘部署场景中可能不可行
  • LTM 的图结构维护和自然遗忘机制的具体效果缺乏详细分析
  • 仅在两个对话基准上评估,对更复杂的智能体任务(如工具使用、多步规划)的适用性有待验证

相关工作与启发

  • vs A-MEM: A-MEM 通过 LLM 驱动的笔记和自动链接构建自组织记忆网络,但未强调在线/离线解耦;LightMem 用 SLM 替代在线 LLM 调用,延迟降低 10 倍
  • vs MemGPT: MemGPT 将上下文窗口视为虚拟内存进行分页,但依赖长上下文重放(~16K tokens);LightMem 仅用 ~1K tokens 达到更好性能
  • vs MemoryBank/ReadAgent: 这些纯检索方法在所有类别上均显著弱于 LightMem,尤其在多跳和时间推理任务上

评分

  • 新颖性: ⭐⭐⭐⭐ SLM 驱动的模块化记忆系统和在线/离线解耦是有意义的架构创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 种骨干模型、5 种基线、详细消融、延迟分析、压力测试,非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,技术细节充分,但部分符号定义较分散
  • 价值: ⭐⭐⭐⭐ 为长期对话智能体提供了实用且高效的记忆解决方案,SLM 驱动的思路有广泛应用价值

相关论文