A Unified Framework for Establishing the Universal Approximation of Transformer-Type Architectures¶

会议: NeurIPS 2025
arXiv: 2506.23551
代码: 无
领域: LLM/Transformer理论
关键词: 万能逼近性, Transformer, Token可区分性, 注意力机制, 置换等变性

一句话总结¶

本文建立了一个统一的理论框架来证明各类Transformer架构的万能逼近性(UAP)，将UAP归结为两个可验证条件——前馈层的非线性仿射不变性和注意力层的token可区分性——并利用解析性假设将后者简化为仅需检验两样本情形。

背景与动机¶

Transformer的万能逼近性（即能否逼近任意连续序列到序列函数）已有多项先行工作，但都依赖于针对特定架构的构造性证明。例如Yun等(2019)证明了softmax attention的UAP，Zaheer等(2020)证明了BigBird的UAP——但每种新注意力变体都需要重新设计构造。缺少一个统一框架来回答"什么条件下Transformer具有UAP？"这一根本性问题。同时，已有的ResNet UAP理论（基于控制论视角）不能直接迁移到Transformer，因为Transformer的前馈层是token-wise的，无法直接建模token间交互。

核心问题¶

能否给出一组与具体注意力机制无关的充分条件，使得任何满足这些条件的Transformer变体都自动具有UAP？并且这些条件能否被高效验证，而不需要为每种架构做专门的构造性证明？

方法详解¶

整体框架¶

将Transformer抽象为交替的两个组件：(1) token-mixing层 \(g\)（注意力），将 \(\mathbb{R}^{d \times n}\) 映到自身；(2) token-wise前馈层 \(h\)，对每个token独立施加同一函数 \(\bar{h}: \mathbb{R}^d \to \mathbb{R}^d\)。整个Transformer是 \((Id + h) \circ (Id + g)\) 块的任意深度组合。在此抽象上给出UAP的条件。

关键设计¶

前馈层条件（Definition 2）: 要求 \(\mathcal{H}\) 满足"非线性仿射不变性"——对任意 \(h \in \mathcal{H}\) 和仿射变换 \(W, A, b\)，\(Wh(A \cdot - b)\) 仍在 \(\mathcal{H}\) 中，且 \(\mathcal{H}\) 含至少一个非仿射Lipschitz函数。这是一个非常温和的条件，几乎所有实用的前馈网络都满足（与激活函数选择和网络宽度无关）。此条件确保深层前馈组合可以逼近任意单向量函数。
Token可区分性条件（Definition 3）: 对任意有限数据集 \(D = \{X_i\}_{i=1}^N\)（样本在一般位置），存在有限层 \(g \in (Id + \mathcal{G})^m\) 使得来自不同 \(G\)-轨道的样本 \(X_i, X_j\) 的所有token在 \(g\) 映射后互不相同。直觉是：注意力机制需要能为不同输入产生足够不同的上下文感知表示。如果某正测集上的token输出是常数，则UAP必然失败。
解析性简化（Theorem 2）: 如果注意力层关于参数 \(\theta\) 是解析的，则token可区分性条件可简化为只需检验 \(|D| = 2\) 的情形。证明利用了"非平凡解析函数的零集测度为零"这一性质——如果对任意有限集失败，可推出某解析函数恒为零，于是只需检查两样本。这使得验证从"任意有限集"降为"两个样本"，验证复杂度大幅降低。

损失函数 / 训练策略¶

纯理论工作，无训练过程。核心定理(Theorem 1)：若 \(\mathcal{H}\) 满足非线性仿射不变性，且 \(\mathcal{G}\) 满足token可区分性，则Transformer族 \(\mathcal{T}_{\mathcal{G},\mathcal{H}}\) 具有 \(G\)-UAP。证明分为插值(Proposition 1)和逼近(主证明4步)两部分。

实验关键数据¶

纯理论论文，无实验数据。但应用到多种实际架构验证了条件:

架构	注意力类型	UAP结论	所需注意力层数
原始Transformer	softmax kernel	\(S_n\)-UAP	1层
Performer	随机特征kernel	\(S_n\)-UAP（几乎确定）	1层
RBF kernel attention	高斯kernel	\(S_n\)-UAP（新结果）	1层
BigBird/Longformer	稀疏softmax	\(G\)-UAP	连通"跳数"层
Linformer	低秩投影	UAP（无对称性）	1层
SkyFormer	Nyström kernel	\(S_n\)-UAP	1层

消融实验要点¶

稀疏注意力的UAP条件简化为图的连通性——只要token能通过有限跳数互相到达，UAP就成立
对于kernel-based注意力，UAP条件简化为kernel在缩放key向量时能区分不同token（极限行为）
固定注意力层数+任意多前馈层足以实现UAP（当token可区分性在固定层数内成立时）

亮点¶

理论贡献极为干净漂亮：两个独立条件+一个解析性简化，覆盖了几乎所有实用Transformer变体
非构造性方法：不需要为每种架构做专门的构造证明，只需验证条件即可
首次证明RBF kernel attention的UAP，展示了框架的新颖性
对稀疏注意力的理论解释尤其有价值——将直觉上的"连通性"严格化
提出了具有特定对称性(如二面体群 \(D_n\)、循环群 \(C_n\))保证UAP的新架构

局限性 / 可改进方向¶

未考虑LayerNorm等实际中广泛使用的归一化层
某些注意力机制（如linear attention）不满足解析性假设，Theorem 2不适用（但Theorem 1的条件仍可验证）
框架不提供量化的逼近率或各组件对逼近效率的贡献分析
仅处理固定长度、紧集上的序列到序列映射，未覆盖变长输入/自回归场景

与相关工作的对比¶

vs. Yun等(2019): 他们的softmax Transformer UAP是特殊情形；本文不需要query中的bias项
vs. Zaheer等(2020)/Yun等(2020)稀疏Transformer: 他们需要周期性稀疏模式或星形子图；本文只需连通性
vs. Kajitsuka&Sato(2024)一层attention记忆容量: 本文推广到任意kernel-based注意力
vs. Li等(2024)ResNet对称函数UAP: 本文扩展到non-transitive置换群和d维token

启发与关联¶

"token可区分性"概念可以启发新的注意力机制设计——只要满足可区分性，就保有UAP
稀疏注意力下UAP仅需连通性，为高效注意力设计提供了理论下界：图只需连通即可
将控制论视角从ResNet扩展到Transformer是数学上的自然推进
对设计保持特定对称性（分子结构、晶体）的Transformer特别有用

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从control theory到UAP验证的非构造性统一框架、解析性简化技巧都是漂亮的理论贡献
实验充分度: ⭐⭐⭐ 纯理论论文，通过多种架构的推论验证了框架的通用性，但无实验
写作质量: ⭐⭐⭐⭐⭐ 理论叙述极其清晰，Definition→Theorem→Corollary的结构层次分明，直觉解释到位
价值: ⭐⭐⭐⭐ 为Transformer架构设计提供了理论基础和UAP保证，但对实践者的直接指导有限