According to Me: Long-Term Personalized Referential Memory QA¶
日期: 2026-03-02
arXiv: 2603.01990
代码: GitHub
领域: ai_safety
关键词: Personalized Memory, Long-term QA, Multimodal Benchmark, RAG, Schema-Guided Memory
一句话总结¶
本文提出了 ATM-Bench,首个面向多模态、多来源个性化记忆问答的基准,包含约四年的真实隐私保护个人记忆数据和人工标注的 QA 对,并提出 Schema-Guided Memory (SGM) 结构化记忆表示方法,实验表明当前最先进的记忆系统在困难集上准确率不足 20%。
研究背景与动机¶
个性化 AI 助手需要回忆并推理用户的长期记忆,这些记忆天然跨越多种模态(图片、视频、邮件)和来源。然而现有长期记忆基准存在明显不足:
- 数据源单一:大多数基准只关注对话历史(如 LongMemEval、LoCoMo),忽略了静态信息来源
- 缺乏个性化引用:现实中用户常使用隐式个人引用(如"我给妈妈在日本旅行时买的礼物"),需要全面理解个人经历才能解析
- 缺乏冲突解决:真实记忆中存在信息更新(如酒店预订后有更新发票),现有基准无法评估此能力
- 多源聚合不足:回答一个问题常需聚合来自不同模态和来源的多条证据
ATM-Bench 旨在填补这些空白,构建真实世界复杂度的个性化记忆 QA 评测。
方法详解¶
整体框架¶
个人记忆助手被分解为三个步骤:
- Memory Ingestion(记忆摄入):将异构原始数据转换为统一记忆库
- Retrieval(检索):给定查询检索相关记忆项
- Answer Generation(回答生成):基于检索到的记忆项生成回答
关键设计¶
1. ATM-Bench 基准构建¶
- 数据规模:~12,000 条记忆项(6,741 封邮件 + 3,759 张图片 + 533 段视频),覆盖约 4 年
- QA 数据集:1,038 条人工标注问答对,每条配有标注的证据集
- ATM-Bench-Hard: 需平均 6.3 条证据,且证据间最大时间跨度平均 226 天(最长 933 天)
- 五大挑战特征:
- PR(个性化引用推理):需解析隐式个人引用
- LA(位置感知):需利用 GPS 和视觉线索推理
- MUT(记忆随时间更新):新记忆可能覆盖旧信息
- ME(多证据组合):~30% 的问题需要多条证据
- ABS(拒绝回答):部分问题不可回答
2. Schema-Guided Memory (SGM)¶
与常规的描述性记忆(DM)不同,SGM 采用结构化键值对表示:
{
"id": "image2020010115000",
"time": "2020-01-01 15:00",
"location": "Scotiabank Arena",
"source": "image",
"entities": ["Scotiabank Arena", "ice hockey"],
"tags": ["sports", "event"],
"OCR": "Scotiabank"
}
SGM 保留了元数据(时间戳、GPS)的结构化信息,有利于检索和推理。
3. 记忆组织方式¶
- Piled Memory(堆叠记忆):无显式结构,简单高效
- Linked Memory(链接记忆):通过 LLM 推断记忆项之间的关系构建图
评估指标¶
- QS (Question Type Score):按题目类型分别评估——数值用 Exact Match,列表用 Jaccard 相似度,开放式用 LLM Judge
- Recall@k:检索召回率
- Joint@k:回答正确率 × 检索召回率
实验关键数据¶
主实验¶
| 系统 | 记忆表示 | 组织方式 | ATM-Bench QS | ATM-Hard QS | R@10 | 编码时间(h) |
|---|---|---|---|---|---|---|
| No-Evidence | – | – | 0.2 | 0.0 | – | – |
| Oracle + DM | DM | – | 70.0 | 25.6 | – | – |
| Oracle + SGM | SGM | – | 77.8 | 47.3 | – | – |
| A-Mem | DM | Piled | 46.1 | 15.0 | 66.6 | 1.2 |
| A-Mem | DM | Linked | 44.8 | 10.0 | 66.4 | 12.6 |
| Mem0 | DM | Linked | 43.5 | 16.5 | 61.9 | 16.7 |
| HippoRAG2 + SGM | SGM | Linked | 47.7 | 17.6 | 69.6 | 1.5 |
| Self-RAG + SGM | SGM | Piled | 50.3 | 16.1 | 68.7 | 0.5 |
| ATM-RAG + SGM | SGM | Piled | 51.0 | 16.3 | 68.7 | 0.5 |
Oracle 设置下不同模型对比(GPT-5 等前沿模型):
| 模型 | ATM-Bench QS | ATM-Hard QS |
|---|---|---|
| Qwen3-VL-2B | 34.8 | 34.1 |
| Qwen3-VL-8B | 77.8 | 47.3 |
| Gemini 2.5 Pro | 78.6 | 64.3 |
| Claude Opus 4.5 | 86.0 | 62.7 |
| GPT-5 | 85.3 | 74.7 |
消融实验¶
- SGM vs DM:Oracle 设置下 SGM 在 ATM-Hard 上比 DM 提升约 20%(47.3 vs 25.6)
- Linked vs Piled:Piled 记忆组织方式在大多数场景下表现类似或更好,且编码时间大幅降低(12.6h → 1.6h)
- Agentic 回答器:在标准集上有一定提升,但在困难集上收益不稳定
- 检索深度 K:K=2~20 范围内性能稳定,无单调提升
关键发现¶
- 即使给定完美检索(Oracle),GPT-5 在困难集上也只达到 74.7%
- SGM 始终优于 DM,无论在检索还是回答质量上
- 简单的 Piled 记忆 + SGM 组合即可获得最佳性价比
- 多模态嵌入模型(Qwen3-VL-Embedding)反而不如纯文本嵌入
亮点与洞察¶
- 首个真正多源多模态的个性化记忆基准:覆盖图片、视频、邮件,跨越 4 年多个国家
- 完全人工标注:文中详细讨论了为什么自动标注(如用 Opus-4、Gemini-2.5-Pro)失败——生成的问题偏向分析性而非人类记忆回忆模式
- 隐私保护做得很到位:三阶段匿名化流水线(AI 过滤 → 自动模糊 → 人工审核),邮件经 LLM 重写
- 问题形式化清晰:Memory Ingestion → Retrieval → Answer Generation 的三段式为不同系统提供了统一对比框架
局限性 / 可改进方向¶
- 数据来自单个用户,个人记忆的多样性有限
- 视频仅使用 8 帧,可能丢失关键时序信息
- 当前最优系统在困难集上仍不足 20%,说明问题远未解决
- GPS 噪声导致的位置别名问题难以自动解决
- 记忆更新(MUT)场景下,即使 GPT-5 在 Oracle 设置也犯错
相关工作与启发¶
- LongMemEval、LoCoMo:对话式记忆基准,缺少多源数据
- Memory-QA:视觉记忆基准,但缺少邮件等文本源
- MemGPT、Mem0、A-Mem:不同的记忆管理框架
- 启发:结构化记忆表示 + 简单检索组合可能优于复杂图结构
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个多源多模态个性化记忆 QA 基准,问题设定非常贴近现实
- 实验充分度: ⭐⭐⭐⭐⭐ 5 个系统对比、Oracle 分析、多种检索器、错误案例分析
- 写作质量: ⭐⭐⭐⭐⭐ 问题形式化清晰,隐私与伦理讨论详尽
- 价值: ⭐⭐⭐⭐⭐ 揭示了当前记忆系统的巨大差距,为个性化 AI 指明方向