On Entity Identification in Language Models¶

会议: ACL 2025
arXiv: 2506.02701
代码: https://github.com/masaki-sakata/entity-identification (有)
领域: LLM可解释性 / 实体表示
关键词: 实体识别, 内部表示, 线性可分性, 聚类评估, 跨模型同构

一句话总结¶

提出基于聚类的评估框架（Purity/Inverse Purity）分析 LLM 内部表示中的实体区分能力，发现实体信息在早期层（~归一化位置 0.2）的 20 维子空间中达到线性可分（F1~0.9），且不同大模型收敛到结构同构的实体编码——为"LLM 从纯文本训练中涌现离散知识结构"提供了系统性证据。

研究背景与动机¶

领域现状：Transformer 语言模型已被证明能回忆事实知识（如"Barack Obama was born in __" → "Hawaii"），之前的研究（Meng et al. 2022, Geva et al. 2023）已分析了事实回忆的信息流。但这些研究都假设输入中的实体提及是明确无歧义的。
现有痛点：
提及歧义（mention ambiguity）：同一表面形式可能指向不同实体——"Obama"可能指 Barack Obama 或 Michelle Obama
提及变异（mention variability）：同一实体有多种表面形式——"Māori All Blacks"和"New Zealand Maori Rugby"指同一球队
现有工作未分析 LLM 在面对这两种挑战时，内部表示是否真正区分了不同实体
核心矛盾：LLM 能完成实体相关任务（NER、关系提取），但不清楚其内部是否真正建立了实体身份的区分——是"知道"还是"碰巧答对"？
本文要解决什么：(1) LLM 内部表示在多大程度上区分同一实体的不同提及？(2) 实体信息编码在哪些层、什么维度的子空间中？(3) 不同 LLM 的实体表示结构是否相似？
切入角度：把实体区分问题转化为聚类质量评估——如果 LLM "知道"两个提及指同一实体，那么它们的内部表示应该在嵌入空间中聚在一起。
核心idea一句话：用 Purity/IP 聚类指标量化 LLM 内部表示的实体区分度，在低维子空间中发现高度线性可分的实体编码。

方法详解¶

整体框架¶

输入是包含实体提及的句子，提取 LLM 各层的隐藏状态作为实体表示，然后用聚类指标衡量"同一实体的表示是否聚在一起、不同实体的表示是否分开"。对五个自回归模型（GPT-2, LLaMA-2 7B/13B, LLaMA-3 8B, Mistral 7B）进行逐层分析。

关键设计¶

聚类评估框架（Purity + Inverse Purity）：
做什么：以实体类别为真实标签，以表示空间中的最近邻聚类为预测划分，计算 F1 分数
核心思路：Purity 衡量"一个聚类中是否只包含同一实体"（类似精确率），IP 衡量"同一实体的提及是否都在同一聚类中"（类似召回率）。两者的 F1 值为 1.0 表示完美区分
设计动机：相比线性探针（需要训练分类器），聚类方法是无监督的，直接评估表示的几何属性，避免了优化器/初始化的影响
维度影响分析与 LDA 降维：
做什么：在不同维度下评估实体区分度，确定最佳分析维度
核心思路：用 LDA 将 LLM 表示降维到 20 维后，F1 仅下降约 3%（LLaMA-2 7B：0.93→0.90），而随机嵌入在低维下得分接近零但高维下虚高——证明 LLM 的实体信息确实编码在低维子空间中，而非维度诅咒的伪像
设计动机：距离-based 指标可能受维度诅咒影响，需要证明结论不是高维空间的统计伪像
难度定义（歧义性 & 变异性）：
做什么：用熵 \(H = -\sum p_i \log p_i\) 量化提及歧义度，用归一化 Levenshtein 距离量化提及变异度
核心思路：歧义度高的提及（如"Georgia"可能指国家或美国州）更难区分；变异度高的实体（同一实体的多种表面形式差异大）也更难区分
设计动机：为评估模型表现提供细粒度的难度梯度

实验数据¶

使用 ZELDA-TRAIN 数据集（实体消歧任务），过滤后保留至少 5 次出现的实体
自回归模型使用"重复输入"策略：将句子输入两次，用第二次出现的提及的嵌入作为实体表示（让模型能利用完整上下文）

实验关键数据¶

主实验：实体区分性能¶

分析维度	指标	结果
提及歧义	AUC (20维)	0.8–0.9（LLM） vs ~0 (随机)
提及变异	AUC (20维)	0.66–0.8（LLM） vs ~0 (随机/FastText)
线性探针	F1 (20维)	~0.9
实体信息峰值	归一化层位置	~0.2（如 LLaMA-2 7B 的第 6-8 层）

逐层分析（LLaMA-2 7B）¶

层数	歧义 AUC	变异 AUC	说明
Layer 0	0.38	0.30	token embedding 无法区分
Layer 8	0.87	0.81	峰值——上下文化后达到最佳区分
Layer 16	下降	下降	后期层开始服务于下一词预测
Layer 32	进一步下降	进一步下降	实体信息被"消耗"

跨模型同构分析（RSA）¶

模型对	Spearman 相关系数
LLaMA-2 vs LLaMA-3	高
LLaMA-2 vs Mistral	高
GPT-2 vs 其他	较低

实体区分对下游任务的影响¶

任务	低变异实体	高变异实体
词预测一致性	71%	39%
实体消歧准确率	随 F1 提升（Pearson r≈0.18, β=0.31）	随 F1 下降

关键发现¶

实体信息在早期层达到峰值然后衰减：约在归一化位置 0.2（例如 32 层模型的第 6-8 层），之后实体区分度下降——后期层可能用于其他功能（如语法、下一词预测）
20 维子空间线性可分：实体信息高效压缩在极低维空间中，支持线性表示假设
大模型趋同：LLaMA-2/3 和 Mistral 形成了结构相似的实体表示空间——支持 Platonic Representation Hypothesis（不同模型收敛到相似的世界知识编码）
实体区分质量直接影响下游表现：区分度高的实体（低变异）词预测一致性为 71%，区分度低的仅 39%

亮点与洞察¶

"实体在早期层编码"的发现：提供了 LLM 信息处理流程的新视角——实体身份在底层完成区分，高层复用这些信息完成更高级任务。这与 Meng et al. (2022) 用激活补丁发现的"实体信息在早期层编码"结论一致，但通过完全不同的方法（几何分析而非因果干预）验证
低维线性可分 + 跨模型同构：两个发现结合在一起非常有力——说明实体编码不是每个模型的随机特征，而是一种收敛的结构化知识组织方式
无监督聚类方法的优势：相比线性探针，Purity/IP 不需要训练分类器，避免了优化器影响，可以更纯粹地反映表示空间的几何属性
实际意义：知道实体信息在哪里（早期层、20 维子空间）可以指导知识编辑、模型剪枝、检索增强等应用

局限性 / 可改进方向¶

仅限英语 Wikipedia 实体：实体编码是否语言独立？跨语言分析是重要的未来方向
描述性而非因果性：发现了实体编码的特征，但未解释为什么会形成这种编码（如训练过程中的哪些机制导致了早期层的实体区分）
完美区分是否总是好事？：论文承认"neural collapse"（同类表示收敛到同一点）在某些场景可能有害——对层次化实体关系（如"画家"作为上位类别）的编码可能需要适度重叠
数据规模的充分性：虽然使用了约 16 万句子，但无法保证覆盖了所有可能的实体混淆

评分¶

新颖性: ⭐⭐⭐⭐ 聚类视角 + 逐层分析 + 跨模型同构发现的组合具有系统性
实验充分度: ⭐⭐⭐⭐ 5个模型 + 多维度分析 + 维度诅咒控制
写作质量: ⭐⭐⭐⭐ 分析系统化，发现描述清晰
价值: ⭐⭐⭐⭐ 对理解 LLM 实体编码机制有重要贡献，支持线性表示和表示收敛假说