跳转至

According to Me: Long-Term Personalized Referential Memory QA

日期: 2026-03-02
arXiv: 2603.01990
代码: GitHub
领域: ai_safety
关键词: Personalized Memory, Long-term QA, Multimodal Benchmark, RAG, Schema-Guided Memory

一句话总结

本文提出了 ATM-Bench,首个面向多模态、多来源个性化记忆问答的基准,包含约四年的真实隐私保护个人记忆数据和人工标注的 QA 对,并提出 Schema-Guided Memory (SGM) 结构化记忆表示方法,实验表明当前最先进的记忆系统在困难集上准确率不足 20%。

研究背景与动机

个性化 AI 助手需要回忆并推理用户的长期记忆,这些记忆天然跨越多种模态(图片、视频、邮件)和来源。然而现有长期记忆基准存在明显不足:

  1. 数据源单一:大多数基准只关注对话历史(如 LongMemEval、LoCoMo),忽略了静态信息来源
  2. 缺乏个性化引用:现实中用户常使用隐式个人引用(如"我给妈妈在日本旅行时买的礼物"),需要全面理解个人经历才能解析
  3. 缺乏冲突解决:真实记忆中存在信息更新(如酒店预订后有更新发票),现有基准无法评估此能力
  4. 多源聚合不足:回答一个问题常需聚合来自不同模态和来源的多条证据

ATM-Bench 旨在填补这些空白,构建真实世界复杂度的个性化记忆 QA 评测。

方法详解

整体框架

个人记忆助手被分解为三个步骤:

  1. Memory Ingestion(记忆摄入):将异构原始数据转换为统一记忆库
  2. Retrieval(检索):给定查询检索相关记忆项
  3. Answer Generation(回答生成):基于检索到的记忆项生成回答

关键设计

1. ATM-Bench 基准构建

  • 数据规模:~12,000 条记忆项(6,741 封邮件 + 3,759 张图片 + 533 段视频),覆盖约 4 年
  • QA 数据集:1,038 条人工标注问答对,每条配有标注的证据集
  • ATM-Bench-Hard: 需平均 6.3 条证据,且证据间最大时间跨度平均 226 天(最长 933 天)
  • 五大挑战特征
  • PR(个性化引用推理):需解析隐式个人引用
  • LA(位置感知):需利用 GPS 和视觉线索推理
  • MUT(记忆随时间更新):新记忆可能覆盖旧信息
  • ME(多证据组合):~30% 的问题需要多条证据
  • ABS(拒绝回答):部分问题不可回答

2. Schema-Guided Memory (SGM)

与常规的描述性记忆(DM)不同,SGM 采用结构化键值对表示:

{
  "id": "image2020010115000",
  "time": "2020-01-01 15:00",
  "location": "Scotiabank Arena",
  "source": "image",
  "entities": ["Scotiabank Arena", "ice hockey"],
  "tags": ["sports", "event"],
  "OCR": "Scotiabank"
}

SGM 保留了元数据(时间戳、GPS)的结构化信息,有利于检索和推理。

3. 记忆组织方式

  • Piled Memory(堆叠记忆):无显式结构,简单高效
  • Linked Memory(链接记忆):通过 LLM 推断记忆项之间的关系构建图

评估指标

  • QS (Question Type Score):按题目类型分别评估——数值用 Exact Match,列表用 Jaccard 相似度,开放式用 LLM Judge
  • Recall@k:检索召回率
  • Joint@k:回答正确率 × 检索召回率

实验关键数据

主实验

系统 记忆表示 组织方式 ATM-Bench QS ATM-Hard QS R@10 编码时间(h)
No-Evidence 0.2 0.0
Oracle + DM DM 70.0 25.6
Oracle + SGM SGM 77.8 47.3
A-Mem DM Piled 46.1 15.0 66.6 1.2
A-Mem DM Linked 44.8 10.0 66.4 12.6
Mem0 DM Linked 43.5 16.5 61.9 16.7
HippoRAG2 + SGM SGM Linked 47.7 17.6 69.6 1.5
Self-RAG + SGM SGM Piled 50.3 16.1 68.7 0.5
ATM-RAG + SGM SGM Piled 51.0 16.3 68.7 0.5

Oracle 设置下不同模型对比(GPT-5 等前沿模型):

模型 ATM-Bench QS ATM-Hard QS
Qwen3-VL-2B 34.8 34.1
Qwen3-VL-8B 77.8 47.3
Gemini 2.5 Pro 78.6 64.3
Claude Opus 4.5 86.0 62.7
GPT-5 85.3 74.7

消融实验

  • SGM vs DM:Oracle 设置下 SGM 在 ATM-Hard 上比 DM 提升约 20%(47.3 vs 25.6)
  • Linked vs Piled:Piled 记忆组织方式在大多数场景下表现类似或更好,且编码时间大幅降低(12.6h → 1.6h)
  • Agentic 回答器:在标准集上有一定提升,但在困难集上收益不稳定
  • 检索深度 K:K=2~20 范围内性能稳定,无单调提升

关键发现

  1. 即使给定完美检索(Oracle),GPT-5 在困难集上也只达到 74.7%
  2. SGM 始终优于 DM,无论在检索还是回答质量上
  3. 简单的 Piled 记忆 + SGM 组合即可获得最佳性价比
  4. 多模态嵌入模型(Qwen3-VL-Embedding)反而不如纯文本嵌入

亮点与洞察

  1. 首个真正多源多模态的个性化记忆基准:覆盖图片、视频、邮件,跨越 4 年多个国家
  2. 完全人工标注:文中详细讨论了为什么自动标注(如用 Opus-4、Gemini-2.5-Pro)失败——生成的问题偏向分析性而非人类记忆回忆模式
  3. 隐私保护做得很到位:三阶段匿名化流水线(AI 过滤 → 自动模糊 → 人工审核),邮件经 LLM 重写
  4. 问题形式化清晰:Memory Ingestion → Retrieval → Answer Generation 的三段式为不同系统提供了统一对比框架

局限性 / 可改进方向

  • 数据来自单个用户,个人记忆的多样性有限
  • 视频仅使用 8 帧,可能丢失关键时序信息
  • 当前最优系统在困难集上仍不足 20%,说明问题远未解决
  • GPS 噪声导致的位置别名问题难以自动解决
  • 记忆更新(MUT)场景下,即使 GPT-5 在 Oracle 设置也犯错

相关工作与启发

  • LongMemEval、LoCoMo:对话式记忆基准,缺少多源数据
  • Memory-QA:视觉记忆基准,但缺少邮件等文本源
  • MemGPT、Mem0、A-Mem:不同的记忆管理框架
  • 启发:结构化记忆表示 + 简单检索组合可能优于复杂图结构

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个多源多模态个性化记忆 QA 基准,问题设定非常贴近现实
  • 实验充分度: ⭐⭐⭐⭐⭐ 5 个系统对比、Oracle 分析、多种检索器、错误案例分析
  • 写作质量: ⭐⭐⭐⭐⭐ 问题形式化清晰,隐私与伦理讨论详尽
  • 价值: ⭐⭐⭐⭐⭐ 揭示了当前记忆系统的巨大差距,为个性化 AI 指明方向