Uncovering Visual-Semantic Psycholinguistic Properties from the Distributional Structure of Text Embedding Space¶

论文信息¶

会议: ACL 2025
arXiv: 2505.23029
代码: https://github.com/Artificial-Memory-Lab/imageability
领域: 信息检索 / 心理语言学
关键词: Imageability, Concreteness, Text Embedding, Neighborhood Stability, Unsupervised, Psycholinguistics

提出Neighborhood Stability Measure (NSM)——一种无监督、无分布假设的方法，通过量化文本嵌入空间中邻域的稳定性来估计词语的可意象性(imageability)和具体性(concreteness)，仅使用文本模态即可超越依赖多模态或生成模型的已有方法。

领域现状: 可意象性（词语唤起心理图像的能力）和具体性（词语指代可感知实体的程度）是连接视觉与语义空间的关键心理语言学属性，传统上通过人工调查获取评分，成本高昂。
数据稀缺: MRC心理语言学数据库仅覆盖4,848个词的可意象性评分；Brysbaert et al. (2014) 通过众包扩展具体性评分至37,058词，但仍然有限。
已有方法局限: Wu & Smith (2023)使用文生图模型估计可意象性，但计算成本极高（120小时GPU处理全部词汇）；Hessel et al. (2018)使用图文对数据集估计具体性，但仅能覆盖约2%的评分词汇，且存在词汇不匹配问题。
关键假设: 图文数据集中的文本本身已包含足够信号来估计这些属性——具体/可意象词在嵌入空间中的邻域结构（峰值锐度）与抽象词存在系统性差异。
核心动机: 开发一种仅使用单一文本模态、无需生成模型、计算高效且覆盖率100%的无监督方法。

NSM方法基于三步流程：(1) 使用文本嵌入模型将图文数据集的caption转为向量集合；(2) 对查询词在嵌入空间中检索k近邻形成邻域；(3) 计算邻域稳定性度量——邻域内每个点的最近邻也在邻域内的比例。向量集合可一次构建后无限复用。

数据集: MS COCO (1.5M captions)、CC3M (3.3M)、CC12M (12M)——仅使用文本caption部分。
嵌入模型: AllMiniLM (384D, 33M参数)、Gte-Base (768D, 137M参数)、Gte-Large (1024D, 434M参数)。
评分数据: MRC心理语言学数据库 (4,848词可意象性) 和 Brysbaert et al. (37,058词具体性)。

核心假设（Hypothesis 1）: 在语义空间中，具体/可意象词周围的上下文分布形成更尖锐的峰值——即其嵌入邻域更加"稳定"（邻居间更紧密、更可分离），而抽象词的邻域则更分散、与其他区域重叠。tSNE可视化初步验证了这一假设。
α-稳定邻域定义: 邻域的α-稳定性为其中最近邻也属于该邻域的点的比例，α越接近1表示邻域越稳定、对应词越具体/可意象。该概念由"自然邻居"（两个点互为最近邻）推广而来。
高效实现: 利用近似最近邻（ANN）搜索（Faiss库的IVF索引），预计算每个点的最近邻映射表，将算法复杂度从O(kT)降至O(T)，其中T为单次ANN查询成本。
数据集选择考量: 方法使用图文caption数据集的文本部分而非通用文本语料，因为可意象性和具体性是视觉-语义属性，需要"语义空间的视觉区域"来准确估计。

方法	可意象性↑	具体性↑	覆盖率	需要视觉模态
Freq (CC12M)	0.34	0.35	98.0%	否
HML (MS COCO)	0.49	0.45	~2.7%	是（图文对）
CosineSim	0.45	0.40	100%	是（生成模型）
AvgClip	0.56	0.45	100%	是（生成模型）
NSM-AllMiniLM(CC12M)	0.66	0.58	100%	否
NSM-Gte-Base(CC12M)	0.58	0.58	100%	否

分析维度	发现
数据集规模	更大的文本集合一致提升性能：CC12M > CC3M > MS COCO
嵌入维度	低维嵌入（384D的AllMiniLM）优于高维嵌入（1024D的Gte-Large），因高维空间中距离集中效应（维度灾难）削弱邻域结构
超参数k	邻域半径k在[64, 4096]范围内通过验证集调优，对结果影响适中
词频 vs NSM	在图文caption数据集中的词频本身已是一个强基线（优于先前报告），但NSM仍显著超越
计算效率	NSM仅需一次性构建嵌入向量集合后可重复使用，而AvgClip需120小时GPU计算