跳转至

Concreteness Versus Abstractness: A Selectivity Analysis in LLMs

会议: ACL 2025
arXiv: N/A
代码: 无
领域: LLM/NLP
关键词: 具体性, 抽象性, 语义选择性, 神经元分析, 概念表示

一句话总结

本文探究大语言模型中具体概念(如"苹果")和抽象概念(如"自由")的处理差异,通过选择性分析(selectivity analysis)发现LLM内部存在对具体性/抽象性具有选择性响应的神经元群体,揭示了LLM的语义表示与人类认知理论中的"具体性效应"(concreteness effect)之间的有趣对应。

研究背景与动机

领域现状:认知科学中"具体性效应"是一个经典发现——人类在处理具体词(如"桌子"、"猫")时比处理抽象词(如"正义"、"概念")更快更准确。这一现象被认为与双重编码理论有关:具体概念同时拥有语言编码和感知编码(视觉、触觉等),而抽象概念主要依赖语言编码。在NLP领域,词的具体性/抽象性是一个重要的语义维度,影响着词相似度、隐喻理解和情感分析等多个任务。

现有痛点:(1)LLM是否也存在类似人类的具体性效应,以及如果存在,其神经基础是什么——这些问题缺乏系统研究;(2)虽然已有工作分析LLM的内部表示(如探测实验),但大多关注句法信息(词性、依赖关系),对语义维度特别是具体性/抽象性维度的分析很少;(3)理解LLM如何表示和处理抽象概念对于提升其在隐喻理解、常识推理等需要抽象思维的任务上的表现至关重要。

核心矛盾:LLM仅从纯文本训练,没有感知经验——按照双重编码理论,它应该在具体性效应上表现不同于人类。但LLM在很多需要具体知识的任务上表现良好,这暗示它可能通过纯语言统计发展出了某种"准具体性"表示。

本文目标:(1)系统测量LLM内部表示中的具体性/抽象性信息;(2)定位对具体/抽象概念有选择性响应的神经元;(3)分析这些选择性神经元在不同层次、不同模型中的分布模式。

切入角度:借鉴神经科学中分析大脑区域选择性(如面孔选择性区域FFA)的方法论——使用选择性指数(selectivity index)量化每个神经元对具体vs抽象刺激的偏好程度。

核心 idea:通过选择性分析发现LLM中存在"具体性选择性神经元"和"抽象性选择性神经元",它们的分布在模型的不同层呈现非均匀分布(浅层偏具体、深层偏抽象),这与预期的从感知到概念抽象的认知处理层级一致。

方法详解

整体框架

实验流程:(1)构建大规模的具体词/抽象词刺激集(基于人类具体性评分数据库);(2)将刺激词嵌入自然语言句子,输入LLM;(3)记录每个隐层每个神经元的激活值;(4)计算每个神经元的具体性/抽象性选择性指数;(5)分析选择性神经元的层级分布和网络角色。

关键设计

  1. 控制化刺激集构建:

    • 功能:构建在具体性/抽象性维度上对立但在其他维度上匹配的词对刺激集
    • 核心思路:从Brysbaert等人的具体性评分数据库(40000+英语词的1-5分具体性评分)中选择极端具体(评分>4.5)和极端抽象(评分<2.0)的词各500个。对两组词在词频、词长、词性分布上进行匹配(matching),消除混淆变量。将每个词嵌入5个不同的自然语句上下文中(如"The [word] is important"),每个句子中目标词的位置固定,以控制位置效应。最终得到5000个具体刺激和5000个抽象刺激
    • 设计动机:不控制词频和词长等混淆变量,选择性的差异可能来自频率效应而非具体性本身
  2. 神经元选择性指数计算:

    • 功能:量化每个神经元对具体vs抽象概念的偏好程度
    • 核心思路:对于模型中的每个神经元 \(j\),计算处理具体词时的平均激活值 \(\bar{a}_j^{con}\) 和处理抽象词时的平均激活值 \(\bar{a}_j^{abs}\)。选择性指数定义为 \(SI_j = (\bar{a}_j^{con} - \bar{a}_j^{abs}) / (\bar{a}_j^{con} + \bar{a}_j^{abs})\),范围在[-1, 1]之间。\(SI > 0\) 表示具体性选择性,\(SI < 0\) 表示抽象性选择性。使用permutation test(10000次随机打乱标签)确定显著性阈值,只保留通过多重比较校正(FDR<0.05)的神经元
    • 设计动机:选择性指数是神经科学的标准工具,直接量化了信号的偏好强度和方向,且通过统计检验确保了结果不是随机波动
  3. 层级分布分析:

    • 功能:揭示选择性神经元在模型不同层中的分布规律
    • 核心思路:统计每一层中具体性选择性神经元和抽象性选择性神经元的比例,绘制层级分布曲线。计算每层的"净具体性偏好"\(NCP_l = (N_l^{con} - N_l^{abs}) / (N_l^{con} + N_l^{abs})\)。还分析这些选择性神经元是否也对其他语义维度(如情感极性、频率)有选择性,检验具体性选择性是独立的还是与其他维度纠缠的
    • 设计动机:如果选择性神经元均匀分布则说明具体性信息是全局编码的;如果分布不均匀则说明模型在不同处理阶段对具体性的关注程度不同

损失函数 / 训练策略

本文为纯分析性工作,不涉及模型训练。使用的模型均为公开发布的预训练模型。

实验关键数据

主实验

模型 总神经元数 具体选择性(%) 抽象选择性(%) 净具体偏好峰 净抽象偏好峰
GPT-2 36,864 4.2% 3.8% Layer 2-4 Layer 10-12
Llama-2-7B 131,072 3.7% 4.1% Layer 3-8 Layer 24-32
Llama-3-8B 131,072 3.5% 4.3% Layer 4-10 Layer 26-32
Mistral-7B 131,072 3.6% 4.0% Layer 3-9 Layer 25-32

消融实验(Llama-2-7B选择性神经元干预)

干预策略 具体词PPL变化 抽象词PPL变化 说明
零化具体选择性神经元 +12.3% +2.1% 具体词受影响远大于抽象词
零化抽象选择性神经元 +1.8% +9.7% 抽象词受影响远大于具体词
零化随机等量神经元 +3.5% +3.2% 无差异性影响
零化两类选择性神经元 +14.1% +11.5% 双重影响叠加

关键发现

  • 约3.5-4.3%的神经元表现出显著的具体性/抽象性选择性,这一比例在不同模型中高度一致
  • 浅层(前1/3层)的净偏好为具体性,深层(后1/3层)的净偏好为抽象性,中间层无明显偏好。这与"从表面到抽象"的认知处理层级吻合
  • 干预实验证实了选择性的功能性——零化具体选择性神经元选择性地损害了具体词的处理,反之亦然
  • 具体性选择性与词频效应是可分离的——控制词频后选择性仍然显著

亮点与洞察

  • 将神经科学的选择性分析方法系统地应用于LLM研究,方法论上桥接了两个领域。这为理解LLM内部表示开辟了新的分析维度
  • 层级分布的"浅-具体、深-抽象"模式非常有趣,暗示LLM可能自发学到了某种类似人类认知中从感知到概念的抽象阶梯
  • 干预实验从被动观察上升到了因果推断——不仅发现了选择性神经元,还证明了它们的功能性

局限与展望

  • 选择性分析假设线性可分的单神经元编码,可能遗漏分布式的非线性表示
  • 仅分析了英语,不同语言的具体性/抽象性可能有文化差异
  • 未分析上下文对选择性的调节——同一个词在不同上下文中的具体性可能不同(如"bank"在不同语境下)
  • 层级分布模式是否与模型架构(层数、宽度)有系统性关系值得探索

相关工作与启发

  • vs Probing Classifiers: 传统探测分类器检测特定层是否"包含"某种信息,选择性分析更进一步定位到单个神经元层面
  • vs Knowledge Neurons: 知识神经元研究定位了存储事实知识的神经元,本文从另一个维度(具体性/抽象性)定位了语义类型选择性神经元
  • vs Embodied Cognition: 具身认知理论认为抽象概念依赖于具体经验的隐喻性扩展,本文发现LLM中也存在类似的层级组织,尽管LLM没有具身经验

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 研究问题新颖,方法论跨学科,发现有理论意义
  • 实验充分度: ⭐⭐⭐⭐ 多模型验证、干预实验和控制变量设计严谨
  • 写作质量: ⭐⭐⭐⭐ 跨学科背景介绍到位,结果呈现清晰
  • 价值: ⭐⭐⭐⭐ 对理解LLM语义表示和认知建模都有启发

相关论文