Truth as a Trajectory (TaT): What Internal Representations Reveal About LLM Reasoning¶

日期: 2026-03-01
arXiv: 2603.01326
代码: 无
领域: LLM推理 / 可解释性
关键词: LLM explainability, probing, trajectory analysis, geometric invariant, hidden state displacement

一句话总结¶

TaT 提出将 transformer 推理建模为隐状态的"轨迹"（层间位移分析），而非静态激活值的探测，发现层间几何位移中存在区分正确/错误推理的不变量，在常识推理、QA、毒性检测上优于传统 probing 方法。

研究背景与动机¶

领域现状：LLM 可解释性研究主要通过 linear probing 分析中间层隐状态，假设正确/错误推理可用单层表示分离。
现有痛点：(a) 隐状态充满多义特征（polysemantic），linear probe 容易学到表面词汇模式而非推理结构；(b) 单层静态分析忽略了 transformer 的层间迭代精炼过程
核心矛盾：隐状态是"存储状态"还是"过程快照"？如果是后者，应该分析轨迹而非单点
核心 idea：不看隐状态本身，只看隐状态在层间的位移变化——轨迹几何中的不变量能更可靠地区分有效推理和虚假推理

方法详解¶

整体框架¶

对每个 token/样本，提取所有层的隐状态序列 \(\{h^{(l)}\}_{l=1}^L\)，计算层间位移 \(\Delta h^{(l)} = h^{(l)} - h^{(l-1)}\)，在位移序列上训练分类器区分正确/错误推理。

关键设计¶

层间位移分析
- 做什么：分析相邻层隐状态的差向量而非绝对值
- 核心思路：位移 \(\Delta h^{(l)}\) 代表第 \(l\) 层的"精炼方向"，正确推理应有一致的精炼模式
- 设计动机：消除多义特征的干扰——绝对值受词汇语义主导，位移更多反映推理过程
几何不变量提取
- 做什么：从位移轨迹中提取几何特征（方向变化、曲率、模长变化等）
- 核心思路：正确推理的轨迹应该"有条理"（方向一致、逐步收敛），错误推理可能"杂乱"
- 设计动机：几何不变量比原始高维向量更鲁棒，不受特定词汇/任务的影响
跨架构验证
- 测试 dense 和 Mixture-of-Experts (MoE) 架构
- 在常识推理、问答、毒性检测三类任务上评估

实验关键数据¶

主实验¶

方法	常识推理	QA	毒性检测	说明
Linear Probing (单层)	基准	基准	基准	传统方法
CCS (对比一致搜索)	中等	中等	中等	改进 probing
TaT (轨迹分析)	最优	最优	最优	只用位移

消融实验¶

配置	精度变化	说明
用绝对隐状态	基线	受词汇特征干扰
只用位移方向	+显著	剥离幅度后仍有效
只用位移模长	+微弱	方向信息更关键
位移方向+模长	最优	完整轨迹几何

关键发现¶

仅用位移（不看激活值本身）即可有效区分正确/错误推理——证明推理信息存在于层间过程而非静态表示中
在 MoE 架构上同样有效，说明轨迹特征与具体架构无关
位移方向比位移模长更重要——"往哪个方向精炼"比"精炼多少"更能说明推理质量

亮点与洞察¶

范式转换：从"隐状态是什么"到"隐状态怎么变"——将分析焦点从静态点转向动态轨迹
轻量可靠：不需要访问原始激活值，只需层间差，降低了隐私和计算开销
轨迹分析作为可解释性的新工具：可推广到检测幻觉、推理错误等场景

局限性 / 可改进方向¶

轨迹特征的可理解性有限——几何不变量本身仍不够直觉化
只做了二分类（正确/错误），未尝试细粒度错误类型诊断
未与因果干预方法（如 activation patching）结合分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ "轨迹而非点"的视角转换是重要概念贡献
实验充分度: ⭐⭐⭐⭐ 多任务 + 多架构 + 消融
写作质量: ⭐⭐⭐⭐ 几何类比直觉好
价值: ⭐⭐⭐⭐ 为 LLM 可解释性提供互补视角