The Geometry of Reasoning: Flowing Logics in Representation Space¶

会议: ICLR 2026
arXiv: 2510.09782
代码: 有（见论文）
领域: LLM 可解释性 / 推理机制
关键词: Reasoning Geometry, Representation Flow, Logical Invariants, LLM Interpretability, Concept Space

一句话总结¶

本文提出一个几何框架将 LLM 的推理过程建模为表示空间中的"流"（embedding 轨迹），通过解耦逻辑结构与语义内容的受控实验证明 LLM 内化了超越表面形式的逻辑不变量，并发现跨模型家族的可能普适表示规律。

研究背景与动机¶

领域现状：大语言模型（LLM）在各种推理任务上展现出惊人能力，但其内部"推理"的本质仍不清楚。主流可解释性研究集中在 attention 分析、探针分类器和机制解释（circuit analysis）等方向，但这些方法多关注局部组件而非推理过程的全局几何结构。

现有痛点：关于 LLM 是否真正"理解"逻辑的争论持续不休。"随机鹦鹉"假说认为 LLM 仅在进行表面模式匹配，缺乏对逻辑结构的真正理解。现有研究缺乏一个形式化的数学框架来描述和验证 LLM 推理过程中的内部表示动态，无法区分模型是在运用逻辑还是在利用统计相关性。

核心矛盾：如果 LLM 只是在做表面模式匹配，那么相同的逻辑推理结构在不同语义载体（如不同的词汇和主题）下应当产生完全不同的表示轨迹；反之，如果 LLM 确实内化了逻辑不变量，那么逻辑结构应当在表示空间中表现为某种几何不变性——但此前缺乏验证这一假说的框架和工具。

本文目标 (1) 如何形式化描述 LLM 推理过程在表示空间中的几何行为？(2) LLM 是否在表示空间中内化了与语义无关的逻辑不变量？(3) 这种几何性质是否跨模型架构具有普适性？

切入角度：作者将 LLM 的逐层（或逐 token）推理过程类比为动力系统中的轨迹演化，提出用微分几何的语言（位置、速度、曲率）来描述推理流。关键的实验设计是使用"自然演绎命题"(natural deduction propositions)，保持逻辑结构不变而改变语义载体，从而解耦逻辑与语义。

核心 idea：将 LLM 推理建模为表示空间中的几何流，用速度场和曲率分析证明逻辑语句是这些流的局部控制器。

方法详解¶

整体框架¶

该框架的核心是将 LLM 处理推理问题时的 hidden representation 视为高维空间中的轨迹（流）。输入为包含逻辑推理步骤的文本序列，经过模型各层后产生一系列 embedding 向量。这些 embedding 的演化轨迹构成了"推理流"。框架包含三个核心组件：(1) 表示空间建模——将层间 embedding 变化建模为连续流；(2) 概念空间映射——通过学习到的表示代理将高维空间投射到可分析的低维概念空间；(3) 受控实验设计——通过语义解耦验证逻辑不变性。

关键设计¶

推理流的几何建模:
- 功能：为 LLM 的推理过程提供数学形式化，将离散的层间变换建模为连续的几何流
- 核心思路：定义表示空间中的流为 embedding 的层间轨迹 \(\{h^{(l)}\}_{l=0}^{L}\)，其中 \(h^{(l)}\) 是第 \(l\) 层的 hidden state。流的速度定义为相邻层表示的差分 \(v^{(l)} = h^{(l+1)} - h^{(l)}\)，曲率通过速度的二阶变化来度量。作者建立了这些几何量与推理步骤的对应关系：逻辑操作（如 modus ponens）对应流速度的特定模式，而推理的"困难度"可以通过曲率来量化
- 设计动机：将推理还原为几何量使得可以用数学工具进行形式化分析，而不仅仅停留在定性观察
语义-逻辑解耦实验设计:
- 功能：验证 LLM 内化的是逻辑结构而非表面语义模式
- 核心思路：使用自然演绎（natural deduction）框架生成实验数据——保持相同的逻辑推理链（如 \(A \rightarrow B\), \(A\), 因此 \(B\)），但替换不同的语义载体（如将"猫是动物"替换为"铁是金属"等不同领域的命题）。通过分析这些不同语义载体下推理流的几何不变性（如速度方向的一致性、曲率模式的相似性），来判断模型是否内化了与具体语义无关的抽象逻辑规则
- 设计动机：这是整个工作最关键的实验设计——如果 LLM 只是在做统计关联，不同语义下的流应该完全不同；只有当模型真正内化了逻辑结构时，流的几何性质才会在语义变化下保持不变
学习型表示代理与可视化:
- 功能：将高维表示空间中的流投射到可分析和可视化的低维概念空间
- 核心思路：训练表示代理（representation proxies）将 LLM 的高维 embedding 映射到低维概念空间，同时保持关键的几何性质。在此概念空间中，可以可视化推理流的轨迹、速度场和曲率变化，并进行定量分析。此方法连接了抽象的理论框架与具体的实证验证
- 设计动机：高维表示空间难以直接分析和可视化，需要降维工具，但普通降维（如 PCA/t-SNE）可能破坏关键的几何结构，因此需要专门设计保持几何性质的映射

损失函数 / 训练策略¶

本文不涉及训练新模型，而是对预训练 LLM 进行分析。表示代理的训练目标是在降维过程中保持流的几何结构（速度方向、曲率等），使用标准的度量保持损失函数。

实验关键数据¶

主实验：跨模型逻辑不变性验证¶

模型家族	模型规模	推理流光滑性	逻辑不变性	语义解耦度
Qwen	多种规模	✓ 光滑流	✓ 跨语义一致	高
LLaMA	多种规模	✓ 光滑流	✓ 跨语义一致	高

两大发现：(1) LLM 推理对应表示空间中的光滑流，(2) 逻辑语句作为这些流的速度的局部控制器。

跨架构普适性分析¶

分析维度	发现	含义
速度场方向一致性	不同语义载体下方向高度相似	逻辑结构，非语义决定了推理轨迹
曲率模式稳定性	困难推理步骤对应高曲率区域	逻辑复杂度有几何签名
跨模型家族	Qwen 和 LLaMA 展现类似几何性质	存在可能普适的表示规律
训练方式独立性	几何性质与具体训练配方基本无关	规律源于任务结构而非训练细节

关键发现¶

推理确实是光滑流：LLM 的层间表示演化不是随机跳跃，而是表示空间中的光滑连续轨迹，这为用微分几何分析推理提供了经验基础
逻辑是几何控制器：逻辑语句（如前提、推理规则）在表示空间中表现为流速度的局部控制信号——改变逻辑步骤会系统性地改变流的方向和速度
挑战"随机鹦鹉"：纯 next-token prediction 训练出的模型能将逻辑不变量内化为表示空间中高阶几何结构，说明 LLM 的"理解"可能比表面统计关联深刻得多
可能的普适性：跨 Qwen 和 LLaMA 家族、不同规模的模型展现出类似的几何性质，暗示存在机器理解与人类语言规律共享的底层表示规律

亮点与洞察¶

几何视角统一推理分析：将推理建模为流的思路非常优雅，用位置-速度-曲率这套经典力学概念为 LLM 内部表示提供了直觉友好的分析工具。这个框架可以迁移到其他需要理解模型内部动态的场景
语义-逻辑解耦的实验设计：使用自然演绎命题作为实验载体，保持逻辑结构不变而变换语义内容，这种控制变量的设计简洁有力，是本文最巧妙的地方
连接可解释性与数学严谨性：不同于大多数定性的可解释性工作，本文试图建立可量化、可形式化的几何框架，为 LLM 推理研究提供了数学工具箱

局限与展望¶

仅有 abstract 可用：由于缓存仅包含摘要，具体的定量结果和实验细节无法完整评估
概念空间映射的忠实性：降维到低维概念空间不可避免会丢失信息，需要更严格地验证保持的几何性质是否足够完整
因果性 vs 相关性：观察到逻辑不变的几何性质不等于证明模型在"使用"逻辑推理，还需要干预实验来建立因果联系
推理类型的覆盖范围：自然演绎仅是形式逻辑的一种，更复杂的推理（如类比推理、归纳推理）是否也有类似的几何性质有待探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性地将微分几何框架应用于 LLM 推理分析，视角新颖
实验充分度: ⭐⭐⭐ 跨多个模型家族验证，但缓存有限无法详细评估定量结果
写作质量: ⭐⭐⭐⭐ 理论框架阐述清晰，概念层次分明
价值: ⭐⭐⭐⭐⭐ 对理解 LLM 推理机制有深远意义，提供了新的概念工具和方法论