跳转至

Exact Expressive Power of Transformers with Padding

会议: NeurIPS 2025
arXiv: 2505.18948
代码: 无
领域: 模型压缩
关键词: Transformer表达能力, padding, looping, 电路复杂度, TC0

一句话总结

本文精确刻画了带 padding 的 Transformer 的表达能力:固定深度 + 多项式 padding 恰好等于 \(\mathsf{FO}\)-uniform \(\mathsf{TC}^0\),进一步结合 \(O(\log^d n)\) looping 恰好等于 \(\mathsf{FO}\)-uniform \(\mathsf{TC}^d\),polylog looping 收敛到 \(\mathsf{NC}\),为 padding/looping 作为可并行推理时计算提供了完整理论基础。

研究背景与动机

  1. 领域现状:Transformer 的计算能力有内在限制——固定深度 Transformer 被限制在 \(\mathsf{TC}^0\) 内,即高度可并行化的问题类。Chain of Thought (CoT) 可以扩展到 \(\mathsf{TC}^0\) 之外,但代价是顺序解码,牺牲并行性。
  2. 现有痛点:CoT 虽然表达能力强但推理慢。是否存在不增加参数、保持并行性、同时扩展 Transformer 表达能力的推理时计算方法?
  3. 核心矛盾:此前已知 padded Transformer 上界为 \(\mathsf{TC}^0\),但是否能达到整个 \(\mathsf{TC}^0\)(即下界是否匹配)一直是开放问题。
  4. 本文要解决什么:(a) 精确刻画 padded Transformer 的表达能力;(b) 理解 padding + looping 组合如何系统地扩展 Transformer 能力。
  5. 切入角度:不走标准的 \(\mathsf{FO}[\mathsf{M}, \mathsf{bit}]\) 路线(bit 谓词难以在 Transformer 中模拟),而是使用 \(\mathsf{FO}+\mathsf{M}^2\)(含成对多数量词的一阶逻辑),后者等价于 \(\mathsf{TC}^0\) 但不需要 bit
  6. 核心idea一句话\(n^k\) 个 padding token 为 Transformer 提供了足够"存储空间"来枚举 \(k\) 个变量的所有赋值组合,从而求解任意 \(\mathsf{FO}+\mathsf{M}^2\) 公式。

方法详解

整体框架

本文是纯理论工作,核心结果是两个精确刻画定理: - Theorem 1: \(\mathsf{AHAT}^0_* = \mathsf{FO}\text{-uniform } \mathsf{TC}^0\)(固定深度 + 多项式 padding) - Theorem 2: \(\mathsf{AHAT}^d_* = \mathsf{FO}\text{-uniform } \mathsf{TC}^d\)\(O(\log^d n)\) looping + 多项式 padding)

工作模型为 Averaging-Hard-Attention Transformer (AHAT):hard attention(只关注最大注意力分数),masked pre-norm,causal masking。

关键设计

  1. Padding → 变量枚举存储空间 (Lemma 2):
  2. 做什么:证明含 \(k\) 个不同变量、嵌套深度 \(\ell\)\(\mathsf{FO}+\mathsf{M}^2\) 公式可在 \(\mathsf{uAHAT}^0_k\) 中计算
  3. 核心思路:用 \(n^k\) 个 padding token 枚举 \(k\) 个变量的所有 \(n^k\) 种赋值。每个 token \(v\) 存储赋值 \(v\) 下各子公式的真值。通过归纳法,每层计算一级公式:
    • 常量/变量:通过 layer-norm hash \(\phi(z) = \langle z,1,-z,-1\rangle / \sqrt{2z^2+2}\) 检索位置
    • 量词 \(\exists i. P\):从赋值 \(v\) attention 到所有 \(v'\)(除变量 \(i\) 外其余一致),取均值得 \(c/n\),与 \(1/(2n)\) 比较
    • 成对多数量词 \(\mathsf{M}^2(i,j).P\):类似地,attention 到除 \(i,j\) 外一致的 \(v'\),得到 \(c/n^2\),与 \(1/2\) 比较
  4. 设计动机:\(\mathsf{FO}+\mathsf{M}^2\) 等价于 \(\mathsf{FO}\text{-uniform } \mathsf{TC}^0\),通过证 padding 可模拟这个逻辑的所有算子,得到下界

  5. Reduction 框架引入 Transformer 分析 (Lemma 3):

  6. 做什么:将经典复杂度理论中的规约(reduction)和完全问题(complete problem)工具引入 Transformer 分析
  7. 核心思路:若类 \(\mathsf{C}\) 有一个在 \(\mathsf{R}\)-规约下的完全问题 \(L\),且 padded Transformer 可识别 \(L\) 并计算所有 \(\mathsf{R}\)-规约,则 \(\mathsf{C} \subseteq \mathsf{AHAT}^d_*\)
  8. 设计动机:建立了一种模块化证明策略——只需证 Transformer 能解一个完全问题和实现规约,就可得到整个类的可识别性

  9. Looping 扩展深度 (Lemma 5):

  10. 做什么:证明 \(O(\log^d n)\) looping + 多项式 padding 可识别整个 \(\mathsf{FO}\text{-uniform } \mathsf{TC}^d\)
  11. 核心思路:利用图连通性问题是 \(\mathsf{NL}\)-complete under \(\mathsf{FO}\) reductions,而 log-looped padded Transformer 可解图连通性(已知结果)。由此得到 padded Transformer 可实现 \(\mathsf{L}\) 规约。再利用 wide-\(\mathsf{TC}^d\) 电路求值问题在 \(\mathsf{L}\) 规约下的完全性,链式推导
  12. 设计动机:确立 padding 控制宽度、looping 控制深度的直觉

  13. Uniformity 坍缩定理 (Theorem 3):

  14. 做什么:证明对 \(d \geq 1\)\(\mathsf{FO}\text{-uniform } \mathsf{TC}^d = \mathsf{L}\text{-uniform } \mathsf{TC}^d\)
  15. 核心思路:\(\mathsf{L}\) 本身在 \(\mathsf{FO}\text{-uniform } \mathsf{AC}^d\) 中,因此构建电路的 \(\mathsf{L}\)-computation 可被 \(\mathsf{FO}\text{-uniform}\) 电路模拟后与求值电路复合
  16. 设计动机:作为副产品的电路复杂度新结果,加强了 Theorem 2

损失函数 / 训练策略

无(纯理论工作,无训练)。

实验关键数据

主实验

本文无实验,核心结果是数学定理:

定理 模型 等价复杂度类
Thm 1 固定深度 + poly padding \(\mathsf{FO}\)-uniform \(\mathsf{TC}^0\)
Thm 2 \(O(\log^d n)\) loop + poly padding \(\mathsf{FO}\)-uniform \(\mathsf{TC}^d\)
Cor 2.1 polylog loop + poly padding \(\mathsf{FO}\)-uniform \(\mathsf{NC}\)
Thm 3 电路复杂度 (\(d \geq 1\)) \(\mathsf{FO}\)-uniform \(\mathsf{TC}^d = \mathsf{L}\)-uniform \(\mathsf{TC}^d\)

关键比较

推理时计算方式 表达能力 并行性 参数增加
\(\mathsf{TC}^0\) 完全并行
Poly padding \(\mathsf{TC}^0\)(充满整个类) 完全并行
Padding + log loop \(\mathsf{TC}^1 \supseteq \mathsf{NL}\) 高度并行
Padding + polylog loop \(\mathsf{NC}\) 高度并行
Chain of Thought \(\supseteq \mathsf{P}\) 顺序

关键发现

  • Padding 本身不扩展 Transformer 的复杂度类上界(仍是 \(\mathsf{TC}^0\)),但使其充满整个 \(\mathsf{TC}^0\)——之前只知是其子集
  • 对数精度和多项式精度在 padded/looped 设置下等价
  • Causal masking 和 unmasked Transformer 在 padding 下等价(Proposition 1)
  • Padding + polylog looping 达到 \(\mathsf{NC}\) 是保持并行性的理论上限(除非 \(\mathsf{NC} = \mathsf{P}\)

亮点与洞察

  • 首次精确刻画 padded Transformer 的表达能力,回答了开放问题。关键技巧是绕过难以模拟的 bit 谓词,转而使用等价的 \(\mathsf{FO}+\mathsf{M}^2\) 逻辑
  • 将 reduction/completeness 工具引入 Transformer 理论非常优雅:一个完全问题 + 规约能力 = 整个复杂度类。这套方法论可被继续用于分析新的 Transformer 变体
  • Padding 作为"计算宽度"、looping 作为"计算深度"的对偶视角为设计推理时计算策略提供了清晰框架
  • Uniformity 坍缩定理本身是一个有独立价值的电路复杂度新结果

局限性 / 可改进方向

  • AHAT 模型(hard attention + masked pre-norm)是对标准 soft-attention Transformer 的理想化,实际模型的表达能力可能不同
  • 理论指出 padding 有效,但实践中如何让模型"学会利用 padding"仍是开放问题(现有实证结果 mixed)
  • Looping 的实际可训练性存疑——合适的参数化和训练策略尚未解决
  • 未讨论 padding 带来的上下文长度增加导致的内存开销
  • 固定 \(k\) 时的 \(\mathsf{AHAT}^d_k\)(padding 量受限)的精细刻画仍开放

相关工作与启发

  • vs Merrill & Sabharwal (2023): 之前证明了 \(\mathsf{AHAT} \subseteq \mathsf{TC}^0\) 的上界,本文补全了下界
  • vs Pfau (2024): 提出了 padded Transformer vs \(\mathsf{TC}^0\) 的开放问题,本文给出完整回答
  • vs CoT 理论: CoT 可达 \(\mathsf{P}\) 以上但牺牲并行性;padding+looping 达到 \(\mathsf{NC}\) 保持并行
  • vs Merrill (2025): looped Transformer 解图连通性的结果被本文作为关键引理使用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 回答了重要开放问题,引入 reduction/completeness 工具到 Transformer 理论是方法论创新
  • 实验充分度: ⭐⭐⭐ 纯理论无实验,但定理体系完整自洽
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑链清晰,定理陈述精炼,证明思路阐述到位
  • 价值: ⭐⭐⭐⭐ 对理解 Transformer 计算能力和设计推理时计算策略有深远意义