跳转至

The Lattice Representation Hypothesis of Large Language Models

会议: ICLR2026
arXiv: 2603.01227
作者: Bo Xiong (Stanford University)
领域: LLM/NLP (表示学习 / 可解释性)
关键词: 线性表示假说, 形式概念分析, 概念格, 半空间模型, 嵌入几何, 符号推理

一句话总结

提出 LLM 的格表示假说 (Lattice Representation Hypothesis):通过将线性表示假说与形式概念分析 (FCA) 统一,证明 LLM 嵌入空间中的属性方向通过半空间交集隐式编码了一个概念格 (concept lattice),从而实现了连续几何与符号抽象之间的桥接。


研究背景与动机

  1. LLM 的概念知识之谜:LLM 在概念知识捕获和逻辑推理方面表现出色,但这些符号化的概念层次结构如何编码在连续的嵌入几何空间中,仍然缺乏系统性的理论解释。
  2. 线性表示假说的局限:现有的线性表示假说 (LRH) 指出语义特征以线性方向编码在嵌入空间中,但主要关注二元概念的线性可分性,对于组合语义(如概念包含、交集、并集)缺乏解释力。
  3. 外延视角的不足:Park et al. (2025) 将概念建模为 token 集合(外延视角),如 \(Y(\text{animal}) = \{\text{predator}, \text{bird}, \text{dog}, \ldots\}\),但忽略了概念的内涵性质(定义概念的属性和关系),难以解释集合论语义如概念归约、交集和并集。
  4. 形式概念分析 (FCA) 的启示:FCA 通过对象-属性的二元关系定义概念,每个概念是一个 (外延, 内涵) 对,这种对偶视角自然诱导出一个概念格结构。
  5. AI 安全与可控性需求:理解 LLM 的隐藏几何结构对于可靠地控制和引导模型推理行为至关重要,是推进 AI 安全的基础步骤。
  6. 理论统一的空白:线性表示假说与符号 AI 中的形式概念分析之间缺乏系统性的理论桥梁,本文填补了这一空白。

方法详解

整体框架

核心思路:将 LRH 中的属性方向 \(\bar{\ell}_m\) 视为嵌入空间中的半空间分界,通过阈值化的内积判断对象是否具有某属性,从而构建 FCA 中的形式上下文 \((G, M, I)\),进而恢复出概念格。

关键设计 1:软关联关系 (Soft Incidence)

对于属性方向 \(\bar{\ell}_m\) 和对象嵌入 \(\mathbf{v}_g\),定义软关联概率:

\[P_\alpha(m(g) = 1) := \sigma\left(\alpha \cdot (\mathbf{v}_g \cdot \bar{\ell}_m - \tau_m)\right)\]

其中 \(\sigma\) 为 sigmoid 函数,\(\alpha > 0\) 控制边界锐度,\(\tau_m\) 为阈值。当 \(\alpha \to \infty\) 时退化为硬阈值判断。 给定置信水平 \(\delta\),定义二元关联关系 \(I_\delta := \{(\mathbf{v}_g, \bar{\ell}_m) \mid P_\alpha(m(g) = 1) \geq \delta\}\)

定理 1 (格几何的存在性):在上述构造下,诱导的形式概念集 \(\mathcal{F}_\delta\) 满足 Galois 连接闭包性质,并在外延包含序下构成一个完备格 (complete lattice)

关键设计 2:规范表示 (Canonical Representation)

命题 1:若属性方向矩阵 \(D\) 的行为 \(\mathbf{d}_i^\top\),阈值向量为 \(\bm{\tau}\),且存在 \(\mathbf{c} \in \mathbb{R}^d\) 使得 \(D\mathbf{c} = \bm{\tau}\),则通过全局平移 \(\mathbf{v}_g \mapsto \mathbf{v}_g - \mathbf{c}\) 可将所有阈值吸收,得到过原点半空间的规范形式:

\[\sigma(\alpha(\mathbf{v}_g \cdot \mathbf{d}_i - \tau_i)) = \sigma(\alpha((\mathbf{v}_g - \mathbf{c}) \cdot \mathbf{d}_i))\]

关键设计 3:概念的半空间表示与投影轮廓

在规范表示下,概念 \(C\) 由属性集 \(Y \subseteq M\) 定义为半空间交集:

\[\mathcal{R}(Y) := \left\{\mathbf{v} \in \mathbb{R}^d \mid \mathbf{v} \cdot \mathbf{d}_m \geq 0, \forall m \in Y\right\}\]

概念 \(C\) 的投影轮廓(连续版内涵):

\[\pi_C(m) := \frac{1}{n} \sum_{i=1}^{n} \mathbf{v}_i \cdot \mathbf{d}_m\]

所有投影向量经 \(\ell_2\) 归一化以确保可比性。

关键设计 4:软包含度量

概念包含关系 \(A \sqsubseteq B\) 的软度量:

\[\text{Inclusion}(A \sqsubseteq B) = \frac{\sum_{m \in M} \phi(\pi_B(m)) \cdot \sigma(\pi_A(m))}{\sum_{m \in M} \phi(\pi_B(m))}\]

其中 \(\phi(x) = \log(1 + e^x)\) (softplus) 按属性在 \(B\) 中的显著性加权,\(\sigma(\cdot)\)\(A\) 的投影映射为满足属性的软似然。

关键设计 5:概念代数 (Meet & Join)

  • Meet (交)\(A \wedge B := \mathcal{R}(Y_A \cup Y_B)\),即同时满足两者所有属性的区域
  • Join (并)\(A \vee B := \mathcal{R}(Y_A) \cup \mathcal{R}(Y_B)\),即覆盖两者的最小区域

软轮廓通过模糊 t-norm/co-norm 实现:

\[\pi_{A \wedge B}(m) = \min\{\pi_A(m), \pi_B(m)\}, \quad \pi_{A \vee B}(m) = \max\{\pi_A(m), \pi_B(m)\}\]

软等价通过调和平均对称化包含度量得到。

属性方向与阈值估计

  • 属性方向:正则化 Fisher 判别分析——\(\bar{\ell}_m := (\Sigma_+ + \Sigma_- + \lambda I)^{-1}(\bm{\mu}_+ - \bm{\mu}_-)\),使用 Ledoit-Wolf 收缩估计协方差
  • 阈值:正负对象投影均值的中点——\(\tau_m := \frac{1}{2}(\mathbb{E}_{g \in G_+}[\text{Proj}_m(\mathbf{v}_g)] + \mathbb{E}_{g \in G_-}[\text{Proj}_m(\mathbf{v}_g)])\)
  • 对象嵌入:WordNet 同义词集(synset)的平均嵌入以降低词汇噪声

实验

实验设置

  • 数据集:基于 WordNet 层次结构构建 5 个领域数据集(WN-Animal, WN-Plant, WN-Food, WN-Event, WN-Cognition),前三个为物理领域、后两个为抽象领域
  • 属性标注:使用 GPT-4o 生成属性模式并标注二元属性矩阵作为 ground truth
  • 模型:LLaMA3.1-8B, Gemma-7B, Mistral-7B
  • 基线:Random、Mean(质心嵌入)

主实验表 1:形式上下文恢复(半空间模型验证)

模型 方法 WN-Animal F1 WN-Plant F1 WN-Food F1 WN-Event F1 WN-Cognition F1
LLaMA3.1-8B Random 45.3 47.3 46.4 48.6 50.1
LLaMA3.1-8B Mean 63.7 63.3 68.1 63.9 68.4
LLaMA3.1-8B Linear 82.5 82.4 80.1 71.5 75.0
Gemma-7B Random 45.3 47.3 46.3 47.8 50.1
Gemma-7B Mean 50.1 51.3 51.2 52.2 56.3
Gemma-7B Linear 83.2 83.2 80.0 71.4 75.4
Mistral-7B Random 45.0 47.5 45.5 49.0 49.3
Mistral-7B Mean 62.0 61.4 62.1 56.5 63.3
Mistral-7B Linear 81.8 81.7 78.2 69.7 74.1

发现:Linear 方法在所有模型和领域上均显著优于基线,物理领域 F1 > 78%,抽象领域 > 69%,验证了半空间模型的有效性。

主实验表 2:偏序推理(格几何验证)

模型 方法 WN-Animal F1 WN-Plant F1 WN-Food F1 WN-Event F1 WN-Cognition F1
LLaMA3.1-8B Random 47.3 47.6 33.3 50.2 49.8
LLaMA3.1-8B Mean 66.7 63.8 55.7 59.1 56.8
LLaMA3.1-8B Linear 77.1 70.4 75.4 68.3 69.6
Gemma-7B Random 50.6 49.5 39.1 49.9 49.5
Gemma-7B Mean 63.4 60.9 50.6 55.6 53.4
Gemma-7B Linear 75.1 71.4 75.6 65.6 66.4
Mistral-7B Random 49.3 48.2 33.3 49.2 48.8
Mistral-7B Mean 64.9 60.5 54.8 55.0 52.6
Mistral-7B Linear 72.1 57.1 62.0 61.8 61.1

发现:基于投影轮廓的软包含度量可直接从嵌入几何推断概念归约关系,无需访问 ground-truth 层次结构。

消融与补充分析

  • 概念代数定性验证 (Table 3):Join 操作可靠返回上位概念(如 dog∨wolf → predator/canine/mammal),Meet 操作产生精化交集(如 horse∧zebra → pony/stallion/foal),与 WordNet 上下位关系一致。
  • 物理 vs. 抽象领域:物理领域(Animal, Plant, Food)一致优于抽象领域(Event, Cognition),原因是物理概念基于具象的感知属性,而抽象概念依赖更复杂的情境属性。
  • 模型规模效应 (LLaMA-3, 3B→70B):规模增大对物理领域提升有限(小模型已较好编码感知属性),但在抽象领域提升显著,说明大模型分配了更多容量给抽象概念结构。
  • 属性相关性分析:PCA 可视化显示属性方向自然组织成语义簇(如"吃草"与"吃植物"接近,"水中游"与"海中生活"聚集),验证了属性方向的语义连贯性。

亮点

  1. 理论统一优雅:首次正式将线性表示假说与形式概念分析通过半空间交集统一,提供了理解 LLM 概念编码的全新数学框架。
  2. 从连续到符号的桥梁:证明了符号化的概念格结构可以从连续嵌入几何中自然涌现,无需显式的符号系统介入。
  3. 概念代数的可操作性:定义了直接在嵌入空间上运作的 Meet/Join 操作,使得概念组合推理成为可能。
  4. 实验设计全面:从半空间验证→偏序推理→概念代数三个层面递进验证理论假说,定量与定性结合。
  5. 对 AI 安全的潜在价值:理解概念的几何编码有助于可靠地控制和引导 LLM 的推理行为。

局限性

  1. 属性标注依赖 GPT-4o:ground-truth 形式上下文由 GPT-4o 生成,可能引入标注偏差,严格意义上并非真正的 ground truth。
  2. 仅在 WordNet 子层次上验证:实验局限于 WordNet 的 5 个领域,未在更大规模或更多样的知识体系上验证。
  3. 抽象领域性能仍有差距:Event 和 Cognition 领域的 F1 显著低于物理领域,说明对非感知概念的建模仍需改进。
  4. 单层嵌入:仅使用最后一层隐藏状态,未探索不同层的格结构差异。
  5. 线性假设的强约束:要求属性方向线性可分,对高度纠缠或上下文依赖的属性可能不成立。
  6. 缺乏下游任务验证:未展示格表示假说对实际推理任务(如自然语言推理、知识图谱补全)的实用价值。

相关工作

  • LLM 中的概念知识探测:通过二元探针或层次聚类验证 LM 捕获了 WordNet 等本体中的概念知识 (Wu et al., 2023; Lin & Ng, 2022),但未解释如何编码。
  • 线性表示假说:从 Word2Vec (Mikolov et al., 2013) 到现代 LLM,语义特征以线性方向编码 (Park et al., 2024a/b; Gurnee & Tegmark, 2024);本文在此基础上扩展到格结构。
  • 因果内积统一:Park et al. (2024a) 通过因果内积统一上下文嵌入和 token 反嵌入空间,本文在此统一空间上构建格几何。
  • 多面体涌现:Elhage et al. (2022) 在玩具模型中观察到多面体结构的涌现,暗示超越单一方向的更丰富几何。
  • FCA 与语言模型:Xiong & Staab (2025) 首次将 FCA 与语言模型关联,但仅限于掩码语言模型,本文扩展到自回归 LLM。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次将线性表示假说与 FCA 统一,提出格表示假说,理论视角极为新颖
  • 实验充分度: ⭐⭐⭐⭐ — 三层递进验证,多模型多领域对比,但属性标注的可靠性和实验规模仍可加强
  • 写作质量: ⭐⭐⭐⭐⭐ — 数学形式化严谨,概念清晰,图示直观
  • 价值: ⭐⭐⭐⭐ — 为理解 LLM 表示提供了深刻的理论框架,但缺乏下游任务验证限制了即时实用价值