According to Me: Long-Term Personalized Referential Memory QA¶

日期: 2026-03-02
arXiv: 2603.01990
代码: GitHub
领域: ai_safety
关键词: Personalized Memory, Long-term QA, Multimodal Benchmark, RAG, Schema-Guided Memory

一句话总结¶

本文提出了 ATM-Bench，首个面向多模态、多来源个性化记忆问答的基准，包含约四年的真实隐私保护个人记忆数据和人工标注的 QA 对，并提出 Schema-Guided Memory (SGM) 结构化记忆表示方法，实验表明当前最先进的记忆系统在困难集上准确率不足 20%。

研究背景与动机¶

个性化 AI 助手需要回忆并推理用户的长期记忆，这些记忆天然跨越多种模态（图片、视频、邮件）和来源。然而现有长期记忆基准存在明显不足：

数据源单一：大多数基准只关注对话历史（如 LongMemEval、LoCoMo），忽略了静态信息来源
缺乏个性化引用：现实中用户常使用隐式个人引用（如"我给妈妈在日本旅行时买的礼物"），需要全面理解个人经历才能解析
缺乏冲突解决：真实记忆中存在信息更新（如酒店预订后有更新发票），现有基准无法评估此能力
多源聚合不足：回答一个问题常需聚合来自不同模态和来源的多条证据

ATM-Bench 旨在填补这些空白，构建真实世界复杂度的个性化记忆 QA 评测。

方法详解¶

整体框架¶

个人记忆助手被分解为三个步骤：

Memory Ingestion（记忆摄入）：将异构原始数据转换为统一记忆库
Retrieval（检索）：给定查询检索相关记忆项
Answer Generation（回答生成）：基于检索到的记忆项生成回答

关键设计¶

1. ATM-Bench 基准构建¶

数据规模：~12,000 条记忆项（6,741 封邮件 + 3,759 张图片 + 533 段视频），覆盖约 4 年
QA 数据集：1,038 条人工标注问答对，每条配有标注的证据集
ATM-Bench-Hard: 需平均 6.3 条证据，且证据间最大时间跨度平均 226 天（最长 933 天）
五大挑战特征：
PR（个性化引用推理）：需解析隐式个人引用
LA（位置感知）：需利用 GPS 和视觉线索推理
MUT（记忆随时间更新）：新记忆可能覆盖旧信息
ME（多证据组合）：~30% 的问题需要多条证据
ABS（拒绝回答）：部分问题不可回答

2. Schema-Guided Memory (SGM)¶

与常规的描述性记忆（DM）不同，SGM 采用结构化键值对表示：

{
  "id": "image2020010115000",
  "time": "2020-01-01 15:00",
  "location": "Scotiabank Arena",
  "source": "image",
  "entities": ["Scotiabank Arena", "ice hockey"],
  "tags": ["sports", "event"],
  "OCR": "Scotiabank"
}

SGM 保留了元数据（时间戳、GPS）的结构化信息，有利于检索和推理。

3. 记忆组织方式¶

Piled Memory（堆叠记忆）：无显式结构，简单高效
Linked Memory（链接记忆）：通过 LLM 推断记忆项之间的关系构建图

评估指标¶

QS (Question Type Score)：按题目类型分别评估——数值用 Exact Match，列表用 Jaccard 相似度，开放式用 LLM Judge
Recall@k：检索召回率
Joint@k：回答正确率 × 检索召回率

实验关键数据¶

主实验¶

系统	记忆表示	组织方式	ATM-Bench QS	ATM-Hard QS	R@10	编码时间(h)
No-Evidence	–	–	0.2	0.0	–	–
Oracle + DM	DM	–	70.0	25.6	–	–
Oracle + SGM	SGM	–	77.8	47.3	–	–
A-Mem	DM	Piled	46.1	15.0	66.6	1.2
A-Mem	DM	Linked	44.8	10.0	66.4	12.6
Mem0	DM	Linked	43.5	16.5	61.9	16.7
HippoRAG2 + SGM	SGM	Linked	47.7	17.6	69.6	1.5
Self-RAG + SGM	SGM	Piled	50.3	16.1	68.7	0.5
ATM-RAG + SGM	SGM	Piled	51.0	16.3	68.7	0.5

Oracle 设置下不同模型对比（GPT-5 等前沿模型）：

模型	ATM-Bench QS	ATM-Hard QS
Qwen3-VL-2B	34.8	34.1
Qwen3-VL-8B	77.8	47.3
Gemini 2.5 Pro	78.6	64.3
Claude Opus 4.5	86.0	62.7
GPT-5	85.3	74.7

消融实验¶

SGM vs DM：Oracle 设置下 SGM 在 ATM-Hard 上比 DM 提升约 20%（47.3 vs 25.6）
Linked vs Piled：Piled 记忆组织方式在大多数场景下表现类似或更好，且编码时间大幅降低（12.6h → 1.6h）
Agentic 回答器：在标准集上有一定提升，但在困难集上收益不稳定
检索深度 K：K=2~20 范围内性能稳定，无单调提升

关键发现¶

即使给定完美检索（Oracle），GPT-5 在困难集上也只达到 74.7%
SGM 始终优于 DM，无论在检索还是回答质量上
简单的 Piled 记忆 + SGM 组合即可获得最佳性价比
多模态嵌入模型（Qwen3-VL-Embedding）反而不如纯文本嵌入

亮点与洞察¶

首个真正多源多模态的个性化记忆基准：覆盖图片、视频、邮件，跨越 4 年多个国家
完全人工标注：文中详细讨论了为什么自动标注（如用 Opus-4、Gemini-2.5-Pro）失败——生成的问题偏向分析性而非人类记忆回忆模式
隐私保护做得很到位：三阶段匿名化流水线（AI 过滤 → 自动模糊 → 人工审核），邮件经 LLM 重写
问题形式化清晰：Memory Ingestion → Retrieval → Answer Generation 的三段式为不同系统提供了统一对比框架

局限性 / 可改进方向¶

数据来自单个用户，个人记忆的多样性有限
视频仅使用 8 帧，可能丢失关键时序信息
当前最优系统在困难集上仍不足 20%，说明问题远未解决
GPS 噪声导致的位置别名问题难以自动解决
记忆更新（MUT）场景下，即使 GPT-5 在 Oracle 设置也犯错

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个多源多模态个性化记忆 QA 基准，问题设定非常贴近现实
实验充分度: ⭐⭐⭐⭐⭐ 5 个系统对比、Oracle 分析、多种检索器、错误案例分析
写作质量: ⭐⭐⭐⭐⭐ 问题形式化清晰，隐私与伦理讨论详尽
价值: ⭐⭐⭐⭐⭐ 揭示了当前记忆系统的巨大差距，为个性化 AI 指明方向