Déjà Vu? Decoding Repeated Reading from Eye Movements¶
会议: ACL 2025
arXiv: 2502.11061
代码: 无
领域: NLP理解 / 认知科学
关键词: 眼动追踪, 重复阅读, 阅读行为解码, 认知模型, 预测建模
一句话总结¶
首次提出从眼动模式自动判断读者是否曾经阅读过某文本的预测任务,通过基于特征的 XGBoost 和神经网络 RoBERTEye 模型,在单次试验中达到 ~70% 准确率、配对试验中达到 ~91% 准确率,并引入 E-Z Reader 认知模型生成的合成扫视路径作为辅助参考信号来增强预测。
研究背景与动机¶
领域现状:在日常生活中,我们经常会重复阅读同一文本(复习、精读、享受等)。心理语言学研究表明,重复阅读时的眼动模式与首次阅读存在系统性差异:阅读速度更快、注视次数更少、注视时间更短、跳读率更高、回视减少,这反映了记忆带来的阅读促进效应。
现有痛点:现有研究仅限于对整体效应的描述性分析(跨文本和参与者的平均统计),无法回答"对于特定读者阅读特定文本,能否判断其是否已阅读过"这一更精细的问题。缺乏预测建模层面的研究,也没有可用的公开数据集支持此任务。
核心矛盾:描述性统计发现的是群体水平的趋势,而实际应用(如教育个性化、阅读辅助)需要个体水平的判断能力。从群体趋势到个体预测之间存在巨大的方法论鸿沟。
本文目标:(1)定义"重复阅读解码"预测任务及其两个变体;(2)开发有效的预测模型;(3)利用认知模型合成数据增强预测;(4)分析模型行为以揭示记忆在重复阅读中的作用。
切入角度:利用 OneStop Eye Movements 数据集(首个包含首次和重复阅读眼动记录的公开数据集),将问题形式化为二分类任务,结合心理语言学特征工程和现代多模态神经网络。
核心 idea:将眼动中的记忆效应作为可预测的信号,用机器学习模型从单个读者的眼动轨迹中解码其是否曾经阅读过该文本,并用认知模型生成的合成首次阅读作为参考信号来增强预测。
方法详解¶
整体框架¶
任务定义为两个变体:(1)单次试验任务——给定一个参与者对一段文本的一条眼动记录,判断是首次阅读还是重复阅读;(2)配对试验任务——给定同一参与者对同一文本的两条眼动记录(顺序未知),判断哪条是首次、哪条是重复。模型输入包括文本和眼动特征,输出为阅读类型的分类概率。
关键设计¶
-
多层次特征表示(Feature-Based Approach):
- 功能:从眼动轨迹中提取心理语言学驱动的特征用于 XGBoost 分类
- 核心思路:设计 35 维全局特征向量,包含三类特征:(a)8 个标准眼动指标(总注视时间、首次注视时间、凝视时间、注视次数、跳读率、回视率等);(b)20 个词属性系数——通过线性模型拟合参与者的速度归一化眼动指标对词频、惊异度和词长的敏感度系数,捕获重复阅读时对语言属性敏感度降低的效应;(c)7 个扫视网络特征——将眼动轨迹构建为有向图,提取连通性、中心性、聚类等图论特征
- 设计动机:直接基于心理语言学文献中已知的首次/重复阅读差异设计特征,确保特征的可解释性和理论基础
-
RoBERTEye 多模态神经模型:
- 功能:融合文本语义信息和眼动特征进行端到端预测
- 核心思路:基于 RoBERTa 扩展,将词级或注视级眼动特征向量投影到语言模型的嵌入空间,与词嵌入序列拼接后输入 Transformer。两个变体:RoBERTEye-Words 使用 13 维词级特征,RoBERTEye-Fixations 使用 6 维注视级特征+词级特征的拼接。通过特殊 token 区分文本嵌入和眼动嵌入
- 设计动机:利用预训练语言模型的文本理解能力,让模型学习文本内容与眼动模式之间的交互关系
-
E-Z Reader 合成扫视路径增强:
- 功能:生成合成的"典型首次阅读"眼动轨迹作为额外参考信号
- 核心思路:使用 E-Z Reader 认知模型为每段文本生成 1000 条合成扫视路径,取平均作为首次阅读参考。将人类特征与合成特征的差异作为额外输入:全局和词级表示用拼接人类特征+差值,注视级表示用序列维度拼接+第三个特殊 token 区分。验证显示 E-Z Reader 输出在注视次数和跳读率上显著更接近人类首次阅读(\(p<0.001\))
- 设计动机:现有认知模型只能模拟首次阅读,正好可以作为参考基准——如果人类眼动偏离合成首次阅读越多,越可能是重复阅读
损失函数 / 训练策略¶
使用 10 折交叉验证,数据划分保证三个评估体制(新参与者、新文本、两者都新)平衡,连续和非连续重复阅读也平衡。神经模型在 L40S-48GB GPU 上用 PyTorch Lightning 训练,XGBoost 用标准超参数搜索。
实验关键数据¶
主实验¶
| 任务 | 模型 | 新文本 | 新参与者 | 两者都新 | All |
|---|---|---|---|---|---|
| 单次试验 | 阅读速度基线 | 66.9 | 67.1 | 66.8 | 66.6 |
| 单次试验 | XGBoost | 69.5 | 70.7 | 68.7 | 69.6 |
| 单次试验 | XGBoost+E-Z | 70.1 | 71.2 | 69.3 | 70.2 |
| 单次试验 | RoBERTEye-Words+E-Z | 70.3 | 69.7 | 69.7 | 69.9 |
| 配对试验 | 阅读速度基线 | 88.0 | 88.1 | 87.2 | 87.7 |
| 配对试验 | XGBoost | 91.5 | 92.2 | 90.6 | 91.4 |
消融实验¶
| 配置 | 单次All | 配对All |
|---|---|---|
| XGBoost(无E-Z) | 69.6 | 91.4 |
| XGBoost + E-Z Reader | 70.2 | - |
| 阅读速度基线 | 66.6 | 87.7 |
| 随机基线 | 50.0 | 50.0 |
关键发现¶
- 配对试验准确率高达 91.4%:当同时给出两条阅读记录时,XGBoost 能非常可靠地区分首次和重复阅读,远超阅读速度基线(87.7%)
- 单次试验更具挑战:仅凭一条记录判断达到 ~70%,比随机高 20 个百分点,但仍有提升空间
- 特征模型优于神经模型:XGBoost 在配对任务上显著优于 RoBERTEye,可能因为手工设计的心理语言学特征更直接地捕获了关键差异
- E-Z Reader 增强有限但正向:合成参考在部分场景下提供显著提升(\(p<0.05\)),但不一致
- 模型性能随实验进程下降:首次阅读中,随着实验进行读者越来越快(练习效应),模型更难区分首次与重复阅读
亮点与洞察¶
- 任务定义的创新性极强:首次将"阅读历史解码"形式化为预测任务,开辟了认知NLP的全新方向。这类任务在教育科技、个性化内容推荐等场景有直接应用价值
- 认知模型作为合成数据源:用 E-Z Reader 生成的首次阅读参考是一个非常巧妙的思路——将认知科学领域的理论模型与机器学习方法桥接,可以推广到其他认知任务
- 模型分析作为科学工具:利用预测模型的行为(如准确率随实验位置的变化)来揭示认知过程的特征,展示了预测建模的科学分析价值
局限与展望¶
- 数据仅限于英语、成年 L1 读者、实验室环境中的 Eyelink 1000 Plus 眼动仪(1000Hz 采样率),泛化性存疑
- 重复阅读间隔最多 10 篇文章,未覆盖更长时间间隔
- 仅考虑两次阅读,现实中可能多次重复
- 文本类型限于新闻文章,其他领域(学术、文学等)未覆盖
- 未来需要探索低分辨率设备(如笔记本/手机前置摄像头)的可行性
相关工作与启发¶
- vs 传统心理语言学研究: 传统研究仅做群体水平的描述性统计分析,本文首次在个体水平做预测,把心理语言学发现转化为可量化的 ML 信号
- vs 阅读理解预测: 此前工作用眼动预测阅读理解能力、阅读目标等,本文聚焦于"是否读过"这一全新维度
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 全新任务定义,首次尝试从眼动解码阅读历史
- 实验充分度: ⭐⭐⭐⭐ 多模型对比+消融+细粒度分析,但数据规模受限
- 写作质量: ⭐⭐⭐⭐⭐ 形式化严谨,实验设计精巧,分析深入
- 价值: ⭐⭐⭐⭐ 学术价值高但离实际应用还有距离,需要更廉价的设备支持
相关论文¶
- [ACL 2025] Automatic Generation of Inference Making Questions for Reading Comprehension Assessments
- [ACL 2025] Can LLMs Reliably Simulate Real Students' Abilities in Mathematics and Reading Comprehension?
- [ACL 2025] End-to-End Dialog Neural Coreference Resolution: Balancing Efficiency and Accuracy in Large-Scale Systems
- [ACL 2025] A Variational Approach for Mitigating Entity Bias in Relation Extraction
- [ACL 2025] Adapting Psycholinguistic Research for LLMs: Gender-Inclusive Language in a Coreference Context