跳转至

📚 AI Paper Notes

If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation?

If Attention Serves as a Cognitive Model of Human Memory Retrieval, What is the Plausible Memory Representation?¶

会议: ACL 2025
arXiv: 2502.11469
代码: 无
领域: 其他

一句话总结¶

通过将 Transformer Grammar（TG）的注意力机制与人类阅读时间数据关联，首次证明在句法结构上操作的注意力比在 token 序列上操作的普通 Transformer 注意力能更好地预测人类阅读行为，揭示人类句子处理涉及"句法结构+词序列"的双重记忆表征。

研究背景与动机¶

计算心理语言学近期发现注意力机制与人类记忆检索（cue-based retrieval）之间存在有趣的平行关系
现有研究主要关注在 token 级表征上操作的普通 Transformer，忽视了句法结构的作用
心理语言学长期研究表明，句法结构能解释 token 级因素无法解释的人类句子处理现象
核心研究问题：如果注意力可以作为记忆检索的通用算法，那么它在句法结构上操作是否也能模拟人类记忆检索？
Transformer Grammar（TG）是一种在句法结构上操作注意力的模型，提供了天然的实验工具
此前没有工作系统研究 TG 的注意力机制对人类阅读行为的预测能力

方法详解¶

整体框架¶

使用 Normalized Attention Entropy（NAE）作为连接模型和人类的 linking hypothesis，比较 TG 和 vanilla Transformer 的注意力对自定步速阅读时间（self-paced reading times）的预测能力。

关键设计¶

Transformer Grammar (TG): 一种句法语言模型，通过动作序列（开括号、终结符、闭括号）联合生成 token 序列和句法结构
COMPOSE 注意力: TG 的核心创新——闭合短语时通过专用注意力机制生成短语向量表征，后续操作将其作为单一表征引用
STACK 注意力: 在所有其他位置操作，注意力限制在栈上的元素（未闭合非终结符、未组合终结符和已闭合短语）
NAE 计算: 对每个注意力头计算归一化注意力熵，除以最大熵并重归一化，衡量检索干扰程度
TG−comp 变体: 去除 COMPOSE 注意力的 TG 变体，用于消融 COMPOSE 的贡献

实验设计¶

语言模型: 16层8头 TG 和 Transformer（252M参数），在 BLLIP-lg（42M tokens）上训练
阅读时间数据: Natural Stories 语料库（10个故事，10,245词，181名母语者的自定步速阅读时间）
统计分析: 线性混合效应模型，控制词长、n-gram频率、surprisal、栈计数等基线因素
评估指标: ΔLogLik（对数似然改善量），衡量 NAE 对阅读时间预测的贡献

实验关键数据¶

主实验：NAE 对阅读时间的预测贡献¶

模型	ΔLogLik	当前词效应(ms)	溢出效应(ms)	显著种子
TG	76.6 (±8.1)	1.42 (±0.2)	2.26 (±0.1)	3/3
Transformer	42.8 (±9.5)	1.32 (±0.2)	1.46 (±0.2)	3/3

独立性检验¶

TG+Transformer 联合模型 > 仅 TG（p<0.001），说明 Transformer NAE 解释了 TG 无法捕获的方差
TG+Transformer 联合模型 > 仅 Transformer（p<0.001），说明 TG NAE 有独立贡献

COMPOSE 注意力消融¶

模型	ΔLogLik
TG	46.1 (±9.1)
TG−comp	18.1 (±9.3)

TG 显著优于 TG−comp（p<0.001），COMPOSE 注意力是 TG 优势的关键来源
TG−comp 对 TG 没有额外贡献（p=0.478），说明 TG 已涵盖 TG−comp 的信息

词性分析发现¶

TG 在动词类词性（VB, VBG, VBN, VBP）上显著优于 Transformer
Transformer 在名词类词性（NN, NNP）上优于 TG
这与心理语言学文献一致：动词触发的检索依赖句法特征，名词触发的检索依赖语义特征

干扰效应 vs 衰减效应¶

TG NAE 与 Category Locality Theory（衰减效应模型）的贡献相互独立（双向 p<0.001）
首次提供广覆盖证据：NAE 捕获的是干扰效应（interference）而非衰减效应（decay）

亮点与洞察¶

双重记忆表征假说: 人类句子处理涉及两种记忆表征——基于句法结构的和基于词序列的，注意力是通用检索算法
COMPOSE 是关键: TG 优势的核心来源是 COMPOSE 操作——将闭合短语压缩为单一表征，而非简单地考虑句法结构
动词 vs 名词的互补性: TG 更擅长捕获动词触发的句法检索，Transformer 更擅长名词触发的语义检索
从计算层到算法层: 将认知建模从 Marr 的计算层（surprisal 理论）推进到算法层（记忆表征和检索机制）
NLP工程→认知科学: 注意力机制虽出自工程目的，却能作为认知科学中cue-based retrieval的计算实现

局限性¶

NAE 计算方式（顶层取、头间求和、子词聚合）沿用前人工作，其他方案未探索
仅使用英语自定步速阅读数据，跨语言和其他认知量度（眼动、EEG、fMRI）的泛化性未验证
假设完美句法结构（"perfect oracle"），局部歧义和增量解析未纳入考虑
采用自顶向下解析策略，而心理语言学认为左角解析可能更符合人类句子处理

相关工作¶

注意力与记忆检索的平行关系（Ryu & Lewis, 2021; Oh & Schuler, 2022）
Cue-based retrieval 理论（Van Dyke & Lewis, 2003）
Transformer Grammar（Sartran et al., 2022）
句法语言模型与人类认知（Hale et al., 2018; Wolfman et al., 2024）
Surprisal 理论和期望理论（Hale, 2001; Levy, 2008）

评分¶

新颖性: ★★★★★ — 首次将 TG 注意力与人类记忆检索关联，提出双重记忆表征假说
技术深度: ★★★★☆ — 实验设计严谨，统计方法规范，消融充分
实验充分性: ★★★★☆ — 多角度分析覆盖了主效应、独立性、消融和词性分析，但仅限英语
实用价值: ★★★☆☆ — 偏基础认知科学研究，对 NLP 工程的直接启示有限