跳转至

On Entity Identification in Language Models

会议: ACL 2025
arXiv: 2506.02701
代码: https://github.com/masaki-sakata/entity-identification (有)
领域: LLM可解释性 / 实体表示
关键词: 实体识别, 内部表示, 线性可分性, 聚类评估, 跨模型同构

一句话总结

提出基于聚类的评估框架(Purity/Inverse Purity)分析 LLM 内部表示中的实体区分能力,发现实体信息在早期层(~归一化位置 0.2)的 20 维子空间中达到线性可分(F1~0.9),且不同大模型收敛到结构同构的实体编码——为"LLM 从纯文本训练中涌现离散知识结构"提供了系统性证据。

研究背景与动机

  1. 领域现状:Transformer 语言模型已被证明能回忆事实知识(如"Barack Obama was born in __" → "Hawaii"),之前的研究(Meng et al. 2022, Geva et al. 2023)已分析了事实回忆的信息流。但这些研究都假设输入中的实体提及是明确无歧义的。
  2. 现有痛点
  3. 提及歧义(mention ambiguity):同一表面形式可能指向不同实体——"Obama"可能指 Barack Obama 或 Michelle Obama
  4. 提及变异(mention variability):同一实体有多种表面形式——"Māori All Blacks"和"New Zealand Maori Rugby"指同一球队
  5. 现有工作未分析 LLM 在面对这两种挑战时,内部表示是否真正区分了不同实体
  6. 核心矛盾:LLM 能完成实体相关任务(NER、关系提取),但不清楚其内部是否真正建立了实体身份的区分——是"知道"还是"碰巧答对"?
  7. 本文要解决什么:(1) LLM 内部表示在多大程度上区分同一实体的不同提及?(2) 实体信息编码在哪些层、什么维度的子空间中?(3) 不同 LLM 的实体表示结构是否相似?
  8. 切入角度:把实体区分问题转化为聚类质量评估——如果 LLM "知道"两个提及指同一实体,那么它们的内部表示应该在嵌入空间中聚在一起。
  9. 核心idea一句话:用 Purity/IP 聚类指标量化 LLM 内部表示的实体区分度,在低维子空间中发现高度线性可分的实体编码。

方法详解

整体框架

输入是包含实体提及的句子,提取 LLM 各层的隐藏状态作为实体表示,然后用聚类指标衡量"同一实体的表示是否聚在一起、不同实体的表示是否分开"。对五个自回归模型(GPT-2, LLaMA-2 7B/13B, LLaMA-3 8B, Mistral 7B)进行逐层分析。

关键设计

  1. 聚类评估框架(Purity + Inverse Purity)
  2. 做什么:以实体类别为真实标签,以表示空间中的最近邻聚类为预测划分,计算 F1 分数
  3. 核心思路:Purity 衡量"一个聚类中是否只包含同一实体"(类似精确率),IP 衡量"同一实体的提及是否都在同一聚类中"(类似召回率)。两者的 F1 值为 1.0 表示完美区分
  4. 设计动机:相比线性探针(需要训练分类器),聚类方法是无监督的,直接评估表示的几何属性,避免了优化器/初始化的影响

  5. 维度影响分析与 LDA 降维

  6. 做什么:在不同维度下评估实体区分度,确定最佳分析维度
  7. 核心思路:用 LDA 将 LLM 表示降维到 20 维后,F1 仅下降约 3%(LLaMA-2 7B:0.93→0.90),而随机嵌入在低维下得分接近零但高维下虚高——证明 LLM 的实体信息确实编码在低维子空间中,而非维度诅咒的伪像
  8. 设计动机:距离-based 指标可能受维度诅咒影响,需要证明结论不是高维空间的统计伪像

  9. 难度定义(歧义性 & 变异性)

  10. 做什么:用熵 \(H = -\sum p_i \log p_i\) 量化提及歧义度,用归一化 Levenshtein 距离量化提及变异度
  11. 核心思路:歧义度高的提及(如"Georgia"可能指国家或美国州)更难区分;变异度高的实体(同一实体的多种表面形式差异大)也更难区分
  12. 设计动机:为评估模型表现提供细粒度的难度梯度

实验数据

  • 使用 ZELDA-TRAIN 数据集(实体消歧任务),过滤后保留至少 5 次出现的实体
  • 自回归模型使用"重复输入"策略:将句子输入两次,用第二次出现的提及的嵌入作为实体表示(让模型能利用完整上下文)

实验关键数据

主实验:实体区分性能

分析维度 指标 结果
提及歧义 AUC (20维) 0.8–0.9(LLM) vs ~0 (随机)
提及变异 AUC (20维) 0.66–0.8(LLM) vs ~0 (随机/FastText)
线性探针 F1 (20维) ~0.9
实体信息峰值 归一化层位置 ~0.2(如 LLaMA-2 7B 的第 6-8 层)

逐层分析(LLaMA-2 7B)

层数 歧义 AUC 变异 AUC 说明
Layer 0 0.38 0.30 token embedding 无法区分
Layer 8 0.87 0.81 峰值——上下文化后达到最佳区分
Layer 16 下降 下降 后期层开始服务于下一词预测
Layer 32 进一步下降 进一步下降 实体信息被"消耗"

跨模型同构分析(RSA)

模型对 Spearman 相关系数
LLaMA-2 vs LLaMA-3
LLaMA-2 vs Mistral
GPT-2 vs 其他 较低

实体区分对下游任务的影响

任务 低变异实体 高变异实体
词预测一致性 71% 39%
实体消歧准确率 随 F1 提升(Pearson r≈0.18, β=0.31) 随 F1 下降

关键发现

  • 实体信息在早期层达到峰值然后衰减:约在归一化位置 0.2(例如 32 层模型的第 6-8 层),之后实体区分度下降——后期层可能用于其他功能(如语法、下一词预测)
  • 20 维子空间线性可分:实体信息高效压缩在极低维空间中,支持线性表示假设
  • 大模型趋同:LLaMA-2/3 和 Mistral 形成了结构相似的实体表示空间——支持 Platonic Representation Hypothesis(不同模型收敛到相似的世界知识编码)
  • 实体区分质量直接影响下游表现:区分度高的实体(低变异)词预测一致性为 71%,区分度低的仅 39%

亮点与洞察

  • "实体在早期层编码"的发现:提供了 LLM 信息处理流程的新视角——实体身份在底层完成区分,高层复用这些信息完成更高级任务。这与 Meng et al. (2022) 用激活补丁发现的"实体信息在早期层编码"结论一致,但通过完全不同的方法(几何分析而非因果干预)验证
  • 低维线性可分 + 跨模型同构:两个发现结合在一起非常有力——说明实体编码不是每个模型的随机特征,而是一种收敛的结构化知识组织方式
  • 无监督聚类方法的优势:相比线性探针,Purity/IP 不需要训练分类器,避免了优化器影响,可以更纯粹地反映表示空间的几何属性
  • 实际意义:知道实体信息在哪里(早期层、20 维子空间)可以指导知识编辑、模型剪枝、检索增强等应用

局限性 / 可改进方向

  • 仅限英语 Wikipedia 实体:实体编码是否语言独立?跨语言分析是重要的未来方向
  • 描述性而非因果性:发现了实体编码的特征,但未解释为什么会形成这种编码(如训练过程中的哪些机制导致了早期层的实体区分)
  • 完美区分是否总是好事?:论文承认"neural collapse"(同类表示收敛到同一点)在某些场景可能有害——对层次化实体关系(如"画家"作为上位类别)的编码可能需要适度重叠
  • 数据规模的充分性:虽然使用了约 16 万句子,但无法保证覆盖了所有可能的实体混淆

相关工作与启发

  • vs Gurnee & Tegmark (2024):他们发现地理/时间特征在早期层探针分数最高;本文将这一观察推广到更广泛的实体类型
  • vs Abdou et al. (2021):他们用 RSA 分析颜色词表示与人类感知的对应关系;本文将同构分析应用于实体身份这一离散结构
  • vs Huh et al. (2024) Platonic Representation Hypothesis:跨模型的实体表示同构为该假说提供了来自实体维度的新证据

评分

  • 新颖性: ⭐⭐⭐⭐ 聚类视角 + 逐层分析 + 跨模型同构发现的组合具有系统性
  • 实验充分度: ⭐⭐⭐⭐ 5个模型 + 多维度分析 + 维度诅咒控制
  • 写作质量: ⭐⭐⭐⭐ 分析系统化,发现描述清晰
  • 价值: ⭐⭐⭐⭐ 对理解 LLM 实体编码机制有重要贡献,支持线性表示和表示收敛假说