Uncovering Visual-Semantic Psycholinguistic Properties from the Distributional Structure of Text Embedding Space¶

会议: ACL 2025
arXiv: 2505.23029
领域: NLP / 心理语言学
关键词: Imageability, Concreteness, 邻域稳定性, 文本嵌入空间, 无监督估计

一句话总结¶

提出 Neighborhood Stability Measure (NSM)，仅通过文本嵌入空间中邻域的"尖锐度"来无监督估计词汇的可意象性(imageability)和具体性(concreteness)，无需视觉模态或生成模型即可超越现有方法。

研究背景与动机¶

可意象性（imageability）衡量文本唤起清晰心理图像的能力，具体性（concreteness）衡量文本指代可感知实体的程度。这两个心理语言学属性是视觉与语义空间的桥梁。

传统方法依赖人工调查获取评分，成本高且词汇量有限（MRC 数据库仅 4,848 个词有 imageability 评分）。现有无监督计算方法存在明显局限：

Wu & Smith (2023) 的方法需要反复调用文本到图像生成模型（如 Stable Diffusion），计算开销极大
Hessel et al. (2018) 的方法需要图像-描述配对数据集，且依赖词汇匹配，受拼写变体影响严重，实际只能覆盖约 2% 的具有真实标签的词汇

本文的核心洞察是：一个词是否能"画出一幅画"，完全可以从它出现的文本语境中判断——无需视觉模态。

方法详解¶

整体框架¶

方法分三步： 1. 取一个图像-描述数据集的文本部分（如 MS COCO、CC3M、CC12M 的 caption） 2. 使用文本嵌入模型（AllMiniLM-384d、Gte-Base-768d、Gte-Large-1024d）将所有 caption 转为向量集合 3. 对目标词在嵌入空间中计算 NSM（Neighborhood Stability Measure） 作为 imageability/concreteness 的估计

关键设计¶

核心假设：在语义嵌入空间中，具体/可意象词的邻域比抽象词的邻域形成更"尖锐"的峰——即邻域更加紧凑、可分离。

NSM 定义：给定查询词 q 的 k 近邻集合 \(\mathcal{P}\)，α-稳定性定义为集合中每个点的最近邻也在该集合内的比例：

\[\alpha = \frac{1}{|\mathcal{P}|} \left| \{u \in \mathcal{P} \mid \mathcal{N}_1(u) \in \mathcal{P} \} \right|\]

直觉解释： - "beach" 这样的具体词，其相关描述语境集中（都和沙滩、海洋相关），邻域内部点互为近邻 → α 高 - "thing" 这样的抽象词，出现在各种不同语境中，邻域分散 → α 低

技术特点： - 无分布假设（distribution-free）：不依赖任何参数化分布模型 - 仅需单模态：只用文本，不需图像 - 借鉴近似最近邻（ANN）搜索文献中的"自然邻居"概念 - 向量集合一次构建即可反复使用，不像生成式方法需要每次推理

实验关键数据¶

主实验¶

使用 MRC 心理语言学数据库（imageability）和 Brysbaert et al. 2014 数据集（concreteness，37,058 词）作为真实标签。

Imageability 相关性（Spearman ρ）： | 方法 | AllMiniLM(CC3M) | Gte-Base(CC3M) | Gte-Large(CC3M) | |------|----------------|----------------|-----------------| | Hessel et al. 2018 | ~0.35 (仅覆盖2%词汇) | - | - | | Wu & Smith 2023 | ~0.55 | - | - | | NSM (本文) | ~0.65+ | ~0.67+ | ~0.68+ |

NSM 在各种嵌入模型和数据集组合下均显著优于现有无监督方法。

分类性能：NSM 作为特征用于 imageability/concreteness 的二分类任务同样表现最优。

关键发现¶

嵌入维度越高效果越好：从 384d → 768d → 1024d，相关性逐步提升
数据集规模有帮助但非决定性：CC12M > CC3M > MS COCO，但差距不及嵌入模型选择的影响
k 值的鲁棒性：NSM 对超参数 k 不敏感，在较大范围内表现稳定
tSNE 可视化验证假设：具体词的邻域紧凑可分，抽象词的邻域发散重叠
仅用文本模态即可捕获视觉-语义属性：这一发现本身具有理论价值

亮点与洞察¶

方法极简但有效：核心思想简洁——用邻域稳定性衡量语义聚集度，无需视觉模态即可刻画视觉属性
理论洞察深刻：揭示了文本嵌入空间自身已编码了可意象性信息，即"文本的分布结构反映了认知属性"
实用性强：向量集合一次构建即可复用，计算成本远低于需要生成模型的方法
从 ANN 搜索领域借鉴"自然邻居"概念，跨领域迁移巧妙

局限性¶

仅在英语上验证：是否适用于其他语言未知
仅处理单词级别：对短语或句子级别的 imageability 估计未探索
依赖高质量图像描述数据集：尽管只用文本部分，但数据集的构建仍需图像-描述配对
与有监督方法的差距：尽管是最优无监督方法，与有监督方法相比仍有进步空间
对多义词的处理未显式建模：一个词可能在不同语境下有不同的具体性

评分¶

维度	分数 (1-10)
新颖性	8
技术深度	7
实验完整性	8
表达清晰度	9
实用价值	7
综合	7.8