Truth as a Trajectory (TaT): What Internal Representations Reveal About LLM Reasoning¶
日期: 2026-03-01
arXiv: 2603.01326
代码: 无
领域: LLM推理 / 可解释性
关键词: LLM explainability, probing, trajectory analysis, geometric invariant, hidden state displacement
一句话总结¶
TaT 提出将 transformer 推理建模为隐状态的"轨迹"(层间位移分析),而非静态激活值的探测,发现层间几何位移中存在区分正确/错误推理的不变量,在常识推理、QA、毒性检测上优于传统 probing 方法。
研究背景与动机¶
- 领域现状:LLM 可解释性研究主要通过 linear probing 分析中间层隐状态,假设正确/错误推理可用单层表示分离。
- 现有痛点:(a) 隐状态充满多义特征(polysemantic),linear probe 容易学到表面词汇模式而非推理结构;(b) 单层静态分析忽略了 transformer 的层间迭代精炼过程
- 核心矛盾:隐状态是"存储状态"还是"过程快照"?如果是后者,应该分析轨迹而非单点
- 核心 idea:不看隐状态本身,只看隐状态在层间的位移变化——轨迹几何中的不变量能更可靠地区分有效推理和虚假推理
方法详解¶
整体框架¶
对每个 token/样本,提取所有层的隐状态序列 \(\{h^{(l)}\}_{l=1}^L\),计算层间位移 \(\Delta h^{(l)} = h^{(l)} - h^{(l-1)}\),在位移序列上训练分类器区分正确/错误推理。
关键设计¶
-
层间位移分析
- 做什么:分析相邻层隐状态的差向量而非绝对值
- 核心思路:位移 \(\Delta h^{(l)}\) 代表第 \(l\) 层的"精炼方向",正确推理应有一致的精炼模式
- 设计动机:消除多义特征的干扰——绝对值受词汇语义主导,位移更多反映推理过程
-
几何不变量提取
- 做什么:从位移轨迹中提取几何特征(方向变化、曲率、模长变化等)
- 核心思路:正确推理的轨迹应该"有条理"(方向一致、逐步收敛),错误推理可能"杂乱"
- 设计动机:几何不变量比原始高维向量更鲁棒,不受特定词汇/任务的影响
-
跨架构验证
- 测试 dense 和 Mixture-of-Experts (MoE) 架构
- 在常识推理、问答、毒性检测三类任务上评估
实验关键数据¶
主实验¶
| 方法 | 常识推理 | QA | 毒性检测 | 说明 |
|---|---|---|---|---|
| Linear Probing (单层) | 基准 | 基准 | 基准 | 传统方法 |
| CCS (对比一致搜索) | 中等 | 中等 | 中等 | 改进 probing |
| TaT (轨迹分析) | 最优 | 最优 | 最优 | 只用位移 |
消融实验¶
| 配置 | 精度变化 | 说明 |
|---|---|---|
| 用绝对隐状态 | 基线 | 受词汇特征干扰 |
| 只用位移方向 | +显著 | 剥离幅度后仍有效 |
| 只用位移模长 | +微弱 | 方向信息更关键 |
| 位移方向+模长 | 最优 | 完整轨迹几何 |
关键发现¶
- 仅用位移(不看激活值本身)即可有效区分正确/错误推理——证明推理信息存在于层间过程而非静态表示中
- 在 MoE 架构上同样有效,说明轨迹特征与具体架构无关
- 位移方向比位移模长更重要——"往哪个方向精炼"比"精炼多少"更能说明推理质量
亮点与洞察¶
- 范式转换:从"隐状态是什么"到"隐状态怎么变"——将分析焦点从静态点转向动态轨迹
- 轻量可靠:不需要访问原始激活值,只需层间差,降低了隐私和计算开销
- 轨迹分析作为可解释性的新工具:可推广到检测幻觉、推理错误等场景
局限性 / 可改进方向¶
- 轨迹特征的可理解性有限——几何不变量本身仍不够直觉化
- 只做了二分类(正确/错误),未尝试细粒度错误类型诊断
- 未与因果干预方法(如 activation patching)结合分析
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "轨迹而非点"的视角转换是重要概念贡献
- 实验充分度: ⭐⭐⭐⭐ 多任务 + 多架构 + 消融
- 写作质量: ⭐⭐⭐⭐ 几何类比直觉好
- 价值: ⭐⭐⭐⭐ 为 LLM 可解释性提供互补视角