Lightweight LLM Agent Memory with Small Language Models¶

会议: ACL 2026
arXiv: 2604.07798
代码: 无
领域: LLM 智能体 / 记忆系统
关键词: 智能体记忆, 小语言模型, 轻量化检索, 在线-离线解耦, 长期对话

一句话总结¶

本文提出 LightMem，一种由多个专用小语言模型（SLM）驱动的轻量级 LLM 智能体记忆系统，通过将记忆操作模块化为控制器（SLM-1）、选择器（SLM-2）和写入器（SLM-3），并将在线处理与离线整合解耦，在 LoCoMo 基准上平均 F1 提升约 2.5（相比 A-MEM），同时实现 83ms 检索延迟和 581ms 端到端延迟。

研究背景与动机¶

领域现状：LLM 驱动的智能体在长期对话、多步推理和任务交互方面表现出色，但受限于上下文窗口，需要外部记忆来维持跨轮次一致性。现有记忆系统可分为两类：基于检索的外部记忆（如 MemoryBank、ReadAgent）效率高但检索噪声大、准确率不稳定；基于 LLM 驱动的记忆操作（如 A-MEM、HiAgent）准确率更高但反复调用大模型累积显著延迟。

现有痛点：(1) 基于检索的方法受限于查询构建和候选过滤的简单性，引入检索噪声导致回答准确率不稳定；(2) LLM 驱动的方法在长期交互中通过重复模型调用实现记忆操作，累积非平凡的运行时开销；(3) 现有系统缺乏在线/离线的明确解耦，导致效率和效果之间的 trade-off 难以优化。

核心矛盾：高频在线记忆操作需要低延迟和可控性，但提升记忆准确率通常需要更强的模型推理能力；将重型抽象和整合操作混入在线路径会严重拖慢响应速度。

本文目标：设计一个轻量级记忆系统，将高频在线记忆操作交给专用 SLM 处理，将重型抽象和整合延迟到离线处理，在有限计算预算下实现高效且准确的记忆调用。

切入角度：SLM 的最新进展使其能够可靠地处理结构化决策任务（如意图路由、查询构建、语义过滤），这些任务更强调可预测行为和低开销，而非最大化生成能力。

核心 idea：通过多个专用 SLM 协同分工处理在线记忆操作（查询解析、检索、写入），将重型整合交给离线大模型处理，在效率和效果之间取得最优平衡。

方法详解¶

整体框架¶

LightMem 将记忆操作模块化为在线和离线两条路径。在线路径由三个专用 SLM 驱动：SLM-1（Controller）负责意图建模和检索控制，将用户输入转化为假设查询（HQ）并分配检索预算；SLM-2（Selector）执行两阶段检索——向量粗检索后接语义一致性重排序；SLM-3（Writer）将交互压缩为紧凑的 MTM 条目并增量维护。离线路径由大上下文模型将高价值 MTM 片段蒸馏为去标识化的长期语义知识（LTM），以图结构知识库形式存储。

关键设计¶

三层记忆存储（STM/MTM/LTM）:
- 功能：按时间和访问特性组织记忆，支持从即时上下文到长期知识的完整覆盖
- 核心思路：STM 是 SLM 上下文窗口中的工作记忆，逐轮更新但不持久化；MTM 是个性化情节记忆的唯一载体，存储语义摘要、时间信息、访问统计和用户标识符，容量上限 \(|M_u^{\text{MTM}}| \leq B\)（\(B=10^4\)）；LTM 存储从 MTM 高价值片段离线蒸馏的去标识化语义知识，以轻量图结构组织以支持多跳推理
- 设计动机：不同时间尺度的信息需要不同的存储和检索策略；用户标识符实现用户级逻辑隔离，平衡隐私、一致性和可扩展性
两阶段检索（Two-Stage Retrieval）:
- 功能：在固定 Top-\(K\) 预算下从记忆库中检索最相关的记忆集合 \(R_t\)
- 核心思路：Stage 1 使用元数据约束的向量粗检索，为每个假设查询返回候选集，总预算为 \(2K\)（每个 HQ 分配 \(2K/n\)）；Stage 2 由 SLM-2 对 \(|C|=2K\) 个候选执行语义一致性检查和相关性判断，压缩为 \(|R_t| \leq K\) 个最终结果。两到一的压缩实现了：(i) 固定候选大小的稳定计算，(ii) 超越向量相似度的语义精炼，(iii) 显式丢弃约一半候选的噪声抑制
- 设计动机：纯向量检索难以捕捉细粒度语义一致性，但 SLM 直接从全库检索计算代价过高；两阶段设计用高效检索保证覆盖，用 SLM 验证保证精度
离线整合（Offline Consolidation）:
- 功能：将高价值 MTM 片段增量蒸馏为长期语义知识，保持 LTM 的持续演化
- 核心思路：大上下文 LLM 在离线路径处理增量批次（新写入或重新激活的 MTM 条目），将片段抽象为隐私保护的知识候选，通过相似度搜索定位 LTM 中最近的语义锚点，在局部邻域内增量插入和链接。置信度衰减机制应用于弱支撑候选以实现自然遗忘
- 设计动机：将重型抽象操作与在线路径严格解耦，避免增加在线检索和写入延迟；增量处理而非从头重建，保持计算效率

损失函数 / 训练策略¶

SLM-2 使用 LoRA 在 2000 个构建的 (Query, Subgraph, Path) 样本上微调。其他 SLM 使用量化部署的 Llama-3.2-1B-Instruct（默认）或 Qwen2.5-1.5B-Instruct。MTM 容量上限 \(B=10^4\)，超限时通过驱逐陈旧/低价值条目和压缩冗余内容进行维护。离线整合由大上下文 LLM 处理，与在线路径完全解耦。

实验关键数据¶

主实验¶

LoCoMo 基准关键结果（GPT-4o-mini 作为响应生成器）

方法	Single-hop F1	Multi-hop F1	Temporal F1	Open-domain F1	Adversarial F1	Token Length
LoCoMo	40.36	25.02	18.41	12.04	69.23	16,910
MemGPT	41.04	26.65	25.52	9.15	43.29	16,977
A-MEM	44.65	27.02	45.85	12.14	50.03	2,520
LightMem	45.81	28.85	46.28	13.52	54.57	1,150

DialSim 基准结果（GPT-4o-mini）

方法	F1	BLEU-1	ROUGE-L	METEOR	SBERT
LoCoMo	2.55	3.13	2.75	1.64	15.76
A-MEM	3.45	3.37	3.54	2.05	19.51
LightMem	4.12	3.95	4.20	2.48	23.40

消融实验¶

DialSim 消融（Llama-3.2-1B）

配置	F1	SBERT
LightMem (完整)	4.12	23.40
w/o 语义重排序	3.83	22.82
w/o HQ 和检索路由	3.87	-
w/o MTM	3.75	-
w/o 离线整合	3.96	-
w/o 图结构	-	22.82

延迟分析（GPT-4o-mini）

方法	检索延迟 P50 (ms)	检索延迟 P95 (ms)	端到端 P50 (ms)	端到端 P95 (ms)
A-MEM	856	1583	914	3682
MemGPT	143	451	2087	3451
LightMem	83	167	581	1325

关键发现¶

LightMem 在所有模型规模上（从 GPT-4o 到 Llama-3.2-1B）均一致优于基线，证明其增益不依赖于特定骨干模型
相比 A-MEM，LightMem 的检索延迟降低 10 倍（856ms → 83ms P50），端到端延迟降低约 36%
LightMem 使用仅约 1K tokens 的有效上下文就超越了使用 16K+ tokens 的全上下文方法，显著降低推理成本
MTM 增长到 10,000 条时，LightMem 因 Stage 2 语义过滤保持稳定性能，而纯向量检索的 F1 从 3.95 降至 3.83
错误注入压力测试显示，SLM-2 语义重排序是最关键的组件，移除导致最大性能下降

亮点与洞察¶

"让合适规模的模型做合适的事"这一思想在记忆系统中得到很好的体现——SLM 处理高频结构化任务，大模型处理低频重型任务
两阶段检索的 2:1 压缩策略简洁有效，用固定候选大小保证计算稳定性，同时通过语义验证抑制检索噪声
LTM 的图结构设计支持多跳推理和跨用户知识共享，同时通过去标识化保护隐私

局限与展望¶

SLM-2 需要在构建的数据上微调，对新领域的泛化能力需要进一步验证
离线整合依赖大上下文 LLM，在完全边缘部署场景中可能不可行
LTM 的图结构维护和自然遗忘机制的具体效果缺乏详细分析
仅在两个对话基准上评估，对更复杂的智能体任务（如工具使用、多步规划）的适用性有待验证

评分¶

新颖性: ⭐⭐⭐⭐ SLM 驱动的模块化记忆系统和在线/离线解耦是有意义的架构创新
实验充分度: ⭐⭐⭐⭐⭐ 6 种骨干模型、5 种基线、详细消融、延迟分析、压力测试，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，技术细节充分，但部分符号定义较分散
价值: ⭐⭐⭐⭐ 为长期对话智能体提供了实用且高效的记忆解决方案，SLM 驱动的思路有广泛应用价值