跳转至

Characterizing the Expressivity of Fixed-Precision Transformer Language Models

会议: NeurIPS 2025
arXiv: 2505.23623
代码: GitHub
领域: LLM理论
关键词: transformer expressivity, formal language theory, linear temporal logic, fixed precision, length generalization

一句话总结

精确刻画了固定精度、严格未来掩码、软注意力、无位置编码的 Transformer 的表达能力——恰好等价于仅含过去算子的线性时态逻辑 LTL[P],并将其与偏序确定有限自动机 (PODFA)、\(\mathcal{R}\)-trivial 幺半群统一起来。

研究背景与动机

  1. 领域现状:Transformer 的理论表达能力是重要开放问题。现有工作通过将 Transformer 与形式语言、逻辑、电路复杂度关联来分析。Yang et al. (2024) 证明固定精度+唯一硬注意力 (UHA) 的 Transformer 等价于完整的 LTL[P,F,S,U](含四个时态算子)。Yang & Chiang (2024) 分析了软注意力版本,证明其上界是 C-RASP,但精确刻画是开放问题。
  2. 现有痛点
  3. 很多理论假设任意精度或与长度相关的精度,高估了实际 Transformer 的能力
  4. UHA(唯一硬注意力)与实际使用的 softmax 注意力差距大
  5. 软注意力+固定精度 Transformer 的精确表达力刻画仍缺失
  6. 核心矛盾:实际部署的 Transformer 使用固定精度(16/32 位)和软注意力,但理论结果要么假设更强的模型(任意精度),要么用更简单的注意力(硬注意力),无法直接指导对实际模型能力的理解。
  7. 本文要解决什么? 给出固定精度+软注意力+严格掩码+无位置编码的 Transformer 的精确表达力刻画。
  8. 切入角度:双向归约——证明这类 Transformer 可以被翻译为 PFO²[<](两变量过去一阶逻辑),同时 LTL[P] 的每个公式都能被 Transformer 模拟。
  9. 核心idea一句话:固定精度软注意力 NoPE Transformer 的表达力恰好是 LTL[P]——只能看过去、只能做有限次计数的逻辑。

方法详解

整体框架

本文是纯理论工作,核心贡献是建立等价链: $\(\text{Fixed-precision Soft-Attn NoPE Transformer} = \text{PFO}^2[<] = \text{LTL}[\text{P}] = \text{PODFA} = \mathcal{R}\text{-trivial monoids}\)$ 证明分两步:(1) Transformer → PFO²[<](上界);(2) LTL[P] → Transformer(下界)。加上 PFO²[<] = LTL[P](本文独立证明),得到精确刻画。

关键设计

  1. 上界:Transformer → PFO²[<]
  2. 做什么:证明任何固定精度 Transformer 识别的语言都可以用 PFO²[<] 公式描述
  3. 核心思路:固定精度下注意力权重只能取有限多个值。由于各位置的注意力分布相同(NoPE),注意力模式只依赖于"过去哪些 token 出现过"和出现次数(但被有限精度截断),这恰好是 PFO²[<] 可以表达的
  4. 关键洞察:软注意力在固定精度下的"加权平均"实际上只能区分有限多种情况,这使得其能力大幅弱于理论上的任意精度版本

  5. 下界:LTL[P] → Transformer

  6. 做什么:证明 LTL[P] 中的任何公式对应的语言都可以被 Transformer 识别
  7. 核心思路:LTL[P] 公式可以递归构造。原子公式 \(\pi_a\)("当前符号是 a")trivially 可实现;布尔运算在任何精度下都可实现;过去算子 P("过去是否存在满足 \(\psi\) 的位置")可以通过注意力机制实现——注意力可以聚焦到满足 \(\psi\) 的历史位置
  8. 关键洞察:NoPE 条件下没有 F(未来)、U(直到)、S(自此以来)算子的模拟能力,所以表达力严格弱于 LTL[P,F,S,U]

  9. LTL[P] 与 PODFA 和 \(\mathcal{R}\)-trivial 幺半群的等价

  10. 做什么:将逻辑的刻画连接到自动机理论和代数理论
  11. PODFA:偏序确定有限自动机——状态转移图构成偏序的 DFA
  12. \(\mathcal{R}\)-trivial 幺半群:句法幺半群的 \(\mathcal{R}\)-类都是平凡的
  13. 语言理论角度:恰好是左确定多项式 (left-deterministic polynomials) 识别的语言类

  14. 扩展到 Transformer 语言模型

  15. 做什么:证明 Transformer LM(生成模型而非识别器)具有相同的表达力
  16. 核心思路:LM 通过 \(p(\text{eos} | \mathbf{w})\) 的阈值隐式定义语言识别,与识别器等价

损失函数 / 训练策略

  • 不涉及训练策略改进——纯理论加实验验证

实验关键数据

主实验

长度泛化实验(训练在短序列上,测试长序列):

语言 在 LTL[P] 内? 长度泛化准确率
\((ab)^*\) 100%
\(a^*b^*\) 100%
所有 LTL[P] 内语言 100%
Bounded Dyck-1 < 100%
\((aa)^*\) (需要计数) 失败
所有超出 LTL[P] 的语言 一致失败

消融实验

配置 结果 说明
不同学习率/随机种子 结论不变 LTL[P] 内始终成功,外始终失败
增加层数/头数 LTL[P] 外仍失败 架构变化不改变理论极限

关键发现

  • 理论与实践高度吻合:LTL[P] 内语言 100% 泛化,外无一例外失败
  • 固定精度+NoPE 严重限制能力:很多看似简单的语言(如 bounded Dyck、偶数长度串)都超出其能力
  • 软注意力 ≠ 硬注意力:软注意力(本文)只能表达 LTL[P],而 UHA 可以表达完整 LTL[P,F,S,U]——差距巨大

亮点与洞察

  • 精确刻画而非上下界:与大多数表达力分析工作不同,本文给出了完整的等价刻画,不留下任何空隙
  • 多个数学框架的统一极为优雅:逻辑(LTL[P])= 自动机(PODFA)= 代数(\(\mathcal{R}\)-trivial)= 语言学(左确定多项式)= 计算模型(固定精度 Transformer)
  • 实际启示:NoPE Transformer 的能力远弱于通常认为的——甚至不能可靠地做括号匹配。这解释了为什么位置编码对 Transformer 如此重要

局限性 / 可改进方向

  • 仅限 NoPE(无位置编码):实际 Transformer 使用 RoPE/APE/ALiBi 等位置编码,加入位置编码后的精确刻画是重要开放问题
  • 固定精度 = 理想化:实际训练中梯度和激活的数值行为比理论假设复杂
  • 仅考虑语言识别/生成:未涉及 Transformer 在推理、算术等非语言任务上的表达力
  • 改进方向:(1) 加入 RoPE 后的表达力刻画;(2) 扩展到 Transformer with scratchpad/chain-of-thought

相关工作与启发

  • vs Yang et al. (2024, UHA): UHA Transformer = LTL[P,F,S,U](完整四算子),本文软注意力 = LTL[P](仅过去算子),说明软注意力在固定精度下比 UHA 严格弱
  • vs Yang & Chiang (2024, C-RASP): 他们给出上界 C-RASP,本文给出精确刻画 LTL[P]
  • vs Merrill et al. (Saturated Transformers): 他们分析饱和注意力模式,本文分析固定精度软注意力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 精确表达力刻画是该领域最难的问题类型,等价证明和多框架统一都是重要贡献
  • 实验充分度: ⭐⭐⭐⭐ 精心设计的语言层次结构+长度泛化实验,理论预测与实验完美吻合
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰(Figure 1 路线图极好),数学严谨,对非专家也有可读性
  • 价值: ⭐⭐⭐⭐⭐ 为理解 Transformer 能力边界提供了最精确的理论基础之一