The Lattice Representation Hypothesis of Large Language Models¶

会议: ICLR2026
arXiv: 2603.01227
作者: Bo Xiong (Stanford University)
领域: LLM/NLP (表示学习 / 可解释性)
关键词: 线性表示假说, 形式概念分析, 概念格, 半空间模型, 嵌入几何, 符号推理

一句话总结¶

提出 LLM 的格表示假说 (Lattice Representation Hypothesis)：通过将线性表示假说与形式概念分析 (FCA) 统一，证明 LLM 嵌入空间中的属性方向通过半空间交集隐式编码了一个概念格 (concept lattice)，从而实现了连续几何与符号抽象之间的桥接。

研究背景与动机¶

LLM 的概念知识之谜：LLM 在概念知识捕获和逻辑推理方面表现出色，但这些符号化的概念层次结构如何编码在连续的嵌入几何空间中，仍然缺乏系统性的理论解释。
线性表示假说的局限：现有的线性表示假说 (LRH) 指出语义特征以线性方向编码在嵌入空间中，但主要关注二元概念的线性可分性，对于组合语义（如概念包含、交集、并集）缺乏解释力。
外延视角的不足：Park et al. (2025) 将概念建模为 token 集合（外延视角），如 \(Y(\text{animal}) = \{\text{predator}, \text{bird}, \text{dog}, \ldots\}\)，但忽略了概念的内涵性质（定义概念的属性和关系），难以解释集合论语义如概念归约、交集和并集。
形式概念分析 (FCA) 的启示：FCA 通过对象-属性的二元关系定义概念，每个概念是一个 (外延, 内涵) 对，这种对偶视角自然诱导出一个概念格结构。
AI 安全与可控性需求：理解 LLM 的隐藏几何结构对于可靠地控制和引导模型推理行为至关重要，是推进 AI 安全的基础步骤。
理论统一的空白：线性表示假说与符号 AI 中的形式概念分析之间缺乏系统性的理论桥梁，本文填补了这一空白。

方法详解¶

整体框架¶

核心思路：将 LRH 中的属性方向 \(\bar{\ell}_m\) 视为嵌入空间中的半空间分界，通过阈值化的内积判断对象是否具有某属性，从而构建 FCA 中的形式上下文 \((G, M, I)\)，进而恢复出概念格。

关键设计 1：软关联关系 (Soft Incidence)¶

对于属性方向 \(\bar{\ell}_m\) 和对象嵌入 \(\mathbf{v}_g\)，定义软关联概率：

\[P_\alpha(m(g) = 1) := \sigma\left(\alpha \cdot (\mathbf{v}_g \cdot \bar{\ell}_m - \tau_m)\right)\]

其中 \(\sigma\) 为 sigmoid 函数，\(\alpha > 0\) 控制边界锐度，\(\tau_m\) 为阈值。当 \(\alpha \to \infty\) 时退化为硬阈值判断。给定置信水平 \(\delta\)，定义二元关联关系 \(I_\delta := \{(\mathbf{v}_g, \bar{\ell}_m) \mid P_\alpha(m(g) = 1) \geq \delta\}\)。

定理 1 (格几何的存在性)：在上述构造下，诱导的形式概念集 \(\mathcal{F}_\delta\) 满足 Galois 连接闭包性质，并在外延包含序下构成一个完备格 (complete lattice)。

关键设计 2：规范表示 (Canonical Representation)¶

命题 1：若属性方向矩阵 \(D\) 的行为 \(\mathbf{d}_i^\top\)，阈值向量为 \(\bm{\tau}\)，且存在 \(\mathbf{c} \in \mathbb{R}^d\) 使得 \(D\mathbf{c} = \bm{\tau}\)，则通过全局平移 \(\mathbf{v}_g \mapsto \mathbf{v}_g - \mathbf{c}\) 可将所有阈值吸收，得到过原点半空间的规范形式：

\[\sigma(\alpha(\mathbf{v}_g \cdot \mathbf{d}_i - \tau_i)) = \sigma(\alpha((\mathbf{v}_g - \mathbf{c}) \cdot \mathbf{d}_i))\]

关键设计 3：概念的半空间表示与投影轮廓¶

在规范表示下，概念 \(C\) 由属性集 \(Y \subseteq M\) 定义为半空间交集：

\[\mathcal{R}(Y) := \left\{\mathbf{v} \in \mathbb{R}^d \mid \mathbf{v} \cdot \mathbf{d}_m \geq 0, \forall m \in Y\right\}\]

概念 \(C\) 的投影轮廓（连续版内涵）：

\[\pi_C(m) := \frac{1}{n} \sum_{i=1}^{n} \mathbf{v}_i \cdot \mathbf{d}_m\]

所有投影向量经 \(\ell_2\) 归一化以确保可比性。

关键设计 4：软包含度量¶

概念包含关系 \(A \sqsubseteq B\) 的软度量：

\[\text{Inclusion}(A \sqsubseteq B) = \frac{\sum_{m \in M} \phi(\pi_B(m)) \cdot \sigma(\pi_A(m))}{\sum_{m \in M} \phi(\pi_B(m))}\]

其中 \(\phi(x) = \log(1 + e^x)\) (softplus) 按属性在 \(B\) 中的显著性加权，\(\sigma(\cdot)\) 将 \(A\) 的投影映射为满足属性的软似然。

关键设计 5：概念代数 (Meet & Join)¶

Meet (交)：\(A \wedge B := \mathcal{R}(Y_A \cup Y_B)\)，即同时满足两者所有属性的区域
Join (并)：\(A \vee B := \mathcal{R}(Y_A) \cup \mathcal{R}(Y_B)\)，即覆盖两者的最小区域

软轮廓通过模糊 t-norm/co-norm 实现：

\[\pi_{A \wedge B}(m) = \min\{\pi_A(m), \pi_B(m)\}, \quad \pi_{A \vee B}(m) = \max\{\pi_A(m), \pi_B(m)\}\]

软等价通过调和平均对称化包含度量得到。

属性方向与阈值估计¶

属性方向：正则化 Fisher 判别分析——\(\bar{\ell}_m := (\Sigma_+ + \Sigma_- + \lambda I)^{-1}(\bm{\mu}_+ - \bm{\mu}_-)\)，使用 Ledoit-Wolf 收缩估计协方差
阈值：正负对象投影均值的中点——\(\tau_m := \frac{1}{2}(\mathbb{E}_{g \in G_+}[\text{Proj}_m(\mathbf{v}_g)] + \mathbb{E}_{g \in G_-}[\text{Proj}_m(\mathbf{v}_g)])\)
对象嵌入：WordNet 同义词集（synset）的平均嵌入以降低词汇噪声

实验¶

实验设置¶

数据集：基于 WordNet 层次结构构建 5 个领域数据集（WN-Animal, WN-Plant, WN-Food, WN-Event, WN-Cognition），前三个为物理领域、后两个为抽象领域
属性标注：使用 GPT-4o 生成属性模式并标注二元属性矩阵作为 ground truth
模型：LLaMA3.1-8B, Gemma-7B, Mistral-7B
基线：Random、Mean（质心嵌入）

主实验表 1：形式上下文恢复（半空间模型验证）¶

模型	方法	WN-Animal F1	WN-Plant F1	WN-Food F1	WN-Event F1	WN-Cognition F1
LLaMA3.1-8B	Random	45.3	47.3	46.4	48.6	50.1
LLaMA3.1-8B	Mean	63.7	63.3	68.1	63.9	68.4
LLaMA3.1-8B	Linear	82.5	82.4	80.1	71.5	75.0
Gemma-7B	Random	45.3	47.3	46.3	47.8	50.1
Gemma-7B	Mean	50.1	51.3	51.2	52.2	56.3
Gemma-7B	Linear	83.2	83.2	80.0	71.4	75.4
Mistral-7B	Random	45.0	47.5	45.5	49.0	49.3
Mistral-7B	Mean	62.0	61.4	62.1	56.5	63.3
Mistral-7B	Linear	81.8	81.7	78.2	69.7	74.1

发现：Linear 方法在所有模型和领域上均显著优于基线，物理领域 F1 > 78%，抽象领域 > 69%，验证了半空间模型的有效性。

主实验表 2：偏序推理（格几何验证）¶

模型	方法	WN-Animal F1	WN-Plant F1	WN-Food F1	WN-Event F1	WN-Cognition F1
LLaMA3.1-8B	Random	47.3	47.6	33.3	50.2	49.8
LLaMA3.1-8B	Mean	66.7	63.8	55.7	59.1	56.8
LLaMA3.1-8B	Linear	77.1	70.4	75.4	68.3	69.6
Gemma-7B	Random	50.6	49.5	39.1	49.9	49.5
Gemma-7B	Mean	63.4	60.9	50.6	55.6	53.4
Gemma-7B	Linear	75.1	71.4	75.6	65.6	66.4
Mistral-7B	Random	49.3	48.2	33.3	49.2	48.8
Mistral-7B	Mean	64.9	60.5	54.8	55.0	52.6
Mistral-7B	Linear	72.1	57.1	62.0	61.8	61.1

发现：基于投影轮廓的软包含度量可直接从嵌入几何推断概念归约关系，无需访问 ground-truth 层次结构。

消融与补充分析¶

概念代数定性验证 (Table 3)：Join 操作可靠返回上位概念（如 dog∨wolf → predator/canine/mammal），Meet 操作产生精化交集（如 horse∧zebra → pony/stallion/foal），与 WordNet 上下位关系一致。
物理 vs. 抽象领域：物理领域（Animal, Plant, Food）一致优于抽象领域（Event, Cognition），原因是物理概念基于具象的感知属性，而抽象概念依赖更复杂的情境属性。
模型规模效应 (LLaMA-3, 3B→70B)：规模增大对物理领域提升有限（小模型已较好编码感知属性），但在抽象领域提升显著，说明大模型分配了更多容量给抽象概念结构。
属性相关性分析：PCA 可视化显示属性方向自然组织成语义簇（如"吃草"与"吃植物"接近，"水中游"与"海中生活"聚集），验证了属性方向的语义连贯性。

亮点¶

理论统一优雅：首次正式将线性表示假说与形式概念分析通过半空间交集统一，提供了理解 LLM 概念编码的全新数学框架。
从连续到符号的桥梁：证明了符号化的概念格结构可以从连续嵌入几何中自然涌现，无需显式的符号系统介入。
概念代数的可操作性：定义了直接在嵌入空间上运作的 Meet/Join 操作，使得概念组合推理成为可能。
实验设计全面：从半空间验证→偏序推理→概念代数三个层面递进验证理论假说，定量与定性结合。
对 AI 安全的潜在价值：理解概念的几何编码有助于可靠地控制和引导 LLM 的推理行为。

局限性¶

属性标注依赖 GPT-4o：ground-truth 形式上下文由 GPT-4o 生成，可能引入标注偏差，严格意义上并非真正的 ground truth。
仅在 WordNet 子层次上验证：实验局限于 WordNet 的 5 个领域，未在更大规模或更多样的知识体系上验证。
抽象领域性能仍有差距：Event 和 Cognition 领域的 F1 显著低于物理领域，说明对非感知概念的建模仍需改进。
单层嵌入：仅使用最后一层隐藏状态，未探索不同层的格结构差异。
线性假设的强约束：要求属性方向线性可分，对高度纠缠或上下文依赖的属性可能不成立。
缺乏下游任务验证：未展示格表示假说对实际推理任务（如自然语言推理、知识图谱补全）的实用价值。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将线性表示假说与 FCA 统一，提出格表示假说，理论视角极为新颖
实验充分度: ⭐⭐⭐⭐ — 三层递进验证，多模型多领域对比，但属性标注的可靠性和实验规模仍可加强
写作质量: ⭐⭐⭐⭐⭐ — 数学形式化严谨，概念清晰，图示直观
价值: ⭐⭐⭐⭐ — 为理解 LLM 表示提供了深刻的理论框架，但缺乏下游任务验证限制了即时实用价值