Stronger Normalization-Free Transformers¶

会议: CVPR 2026
arXiv: 2512.10938
代码: 有 (论文中提供链接)
领域: 模型压缩 / 架构设计
关键词: 无归一化Transformer, 逐点函数, Derf, 归一化层替代, 泛化性

一句话总结¶

通过系统分析逐点函数替代归一化层所需的四个关键属性（零中心性、有界性、中心敏感性、单调性），在大规模搜索中发现 \(\text{Derf}(x) = \text{erf}(\alpha x + s)\) 是最优的归一化层替代函数，在视觉识别、图像生成、语音表示和DNA序列建模等多个领域持续超越LayerNorm和DyT，且性能增益主要来自更强的泛化而非拟合能力。

研究背景与动机¶

领域现状：归一化层（BatchNorm、LayerNorm、RMSNorm）是现代深度网络的核心组件，通过调节中间激活的分布来稳定训练和加速收敛。最近Dynamic Tanh (DyT) 证明了逐点函数 \(\tanh(\alpha x)\) 可以作为归一化层的drop-in替代，达到相当的性能。
现有痛点：
- 归一化层依赖激活统计量（均值、方差），带来额外的内存访问和同步开销。
- 某些归一化对batch size敏感，小batch下训练不稳定。
- DyT虽然成功匹配了归一化层性能，但未能超越它——大家接受"无归一化≈有归一化"但还没人证明"无归一化>有归一化"。
核心矛盾：DyT建立了逐点函数可以替代归一化层的基础，但设计空间中还有哪些函数可能更好？什么样的函数属性才是关键的？能否找到超越归一化层的逐点函数？
本文目标
- 系统理解逐点函数的哪些属性影响训练动态和最终性能
- 在候选函数集合中搜索最优设计
- 证明逐点函数不仅能替代归一化层，还能超越它
切入角度：从函数的内在属性出发（零中心性、有界性、中心敏感性、单调性），通过控制变量实验隔离每个属性的影响，再基于这些原则指导函数搜索。
核心 idea：满足四个关键属性的S形逐点函数 \(\text{erf}(\alpha x + s)\) 不仅能替代归一化层，还能通过更强的泛化能力持续超越它。

方法详解¶

整体框架¶

工作分两部分：(1) 函数属性分析——系统研究四个属性对训练的影响；(2) 函数搜索——在满足属性约束的候选集中搜索最优函数。最终提出Derf作为归一化层的drop-in替代，集成方式为 \(y = \gamma * \text{erf}(\alpha x + s) + \beta\)。

关键设计¶

四大函数属性分析:
- 功能：建立逐点函数替代归一化层的设计原则。
- 核心思路：在ViT-Base上用控制变量法逐一分析四个属性：
  - 零中心性：水平/垂直偏移实验显示，|λ| ≤ 0.5时性能影响小，|λ| ≥ 2时训练崩溃。输出必须围绕零平衡。
  - 有界性：对无界函数（如arcsinh）加clipping后性能一致提升；将有界函数混合线性项变得无界后性能下降。有界性对稳定优化很重要。增长率有上限——logquad(x)是仍能收敛的最快增长函数。
  - 中心敏感性：在原点附近引入平坦区域，λ越大性能越差，λ≥3时训练崩溃。因为大部分激活集中在零附近，此处的响应性直接影响信号传播。
  - 单调性：单调递增/递减都正常训练，但非单调（如hump-shaped、振荡）函数性能明显下降。单调性保持激活的相对顺序。
- 设计动机：之前DyT只凭直觉选了tanh，缺乏系统性分析。这四个属性为函数设计提供了明确的必要条件。
大规模函数搜索:
- 功能：在满足四属性约束的候选集中找到最优函数。
- 核心思路：从常用标量函数和CDF出发（多项式、有理、指数、对数、三角等），通过平移、缩放、镜像、旋转、clipping等变换生成满足四属性的候选子集。统一形式为 \(y = \gamma * f(\alpha x + s) + \beta\)，在ViT-Base（Top-1 Acc）和DiT-B/4、DiT-L/4（FID）上评估。结果显示erf(x)在所有候选中表现最优：ViT-B 82.8%（vs LayerNorm 82.3%），DiT-L/4 FID 43.94（vs 45.91）。
- 设计动机：虽然很多S形函数外观相似，但它们的性能差异明显。系统搜索比直觉选择更可靠。
Dynamic erf (Derf):
- 功能：最终提出的归一化层替代方案。
- 核心思路：\(\text{Derf}(x) = \gamma * \text{erf}(\alpha x + s) + \beta\)，其中erf(x)是标准高斯CDF的缩放版本 \(\frac{2}{\sqrt{\pi}} \int_0^x e^{-t^2} dt\)。\(\alpha\) 初始化为0.5，\(s\) 初始化为0，\(\gamma\) 全1，\(\beta\) 全0。Drop-in替换：pre-attention、pre-FFN和最终的归一化层各替换一个Derf层。可学习参数 \(s\) 是标量而非向量（实验证明向量形式无额外收益）。
- 设计动机：erf(x)天然满足四个属性（零中心、有界于[-1,1]、原点处敏感、严格单调递增），且其作为高斯CDF的平滑特性可能比tanh的指数饱和更有利于梯度传播。

关键发现：泛化而非拟合¶

通过评估模式下计算训练损失发现：所有模型和规模上，训练损失排序为 Norm < Derf < DyT。即Derf的拟合能力比归一化层更弱，但最终性能更好——说明Derf的优势来自更强的泛化。逐点函数由于只有少量标量参数（\(\alpha, s\)）而非依赖激活统计量自适应，限制了过拟合，起到了隐式正则化的效果。

实验关键数据¶

主实验¶

模型/任务	LayerNorm	DyT	Derf	ΔLN
ViT-B (ImageNet Acc↑)	82.3%	82.5%	82.8%	+0.5%
ViT-L (ImageNet Acc↑)	83.1%	83.6%	83.8%	+0.7%
DiT-B/4 (FID↓)	64.93	63.94	63.23	-1.70
DiT-L/4 (FID↓)	45.91	45.66	43.94	-1.97
DiT-XL/2 (FID↓)	19.94	20.83	18.92	-1.02
wav2vec 2.0 Base (Loss↓)	1.95	1.95	1.93	-0.02
wav2vec 2.0 Large (Loss↓)	1.92	1.91	1.90	-0.02
HyenaDNA (Acc↑)	85.2%	85.2%	85.7%	+0.5%
Caduceus (Acc↑)	86.9%	86.9%	87.3%	+0.4%
GPT-2 (Loss↓)	2.94	2.97	2.94	0.00

消融实验 - 函数搜索结果¶

函数	ViT-B Acc↑	DiT-L/4 FID↓
erf(x) [Derf]	82.8%	43.94
tanh(x) [DyT]	82.6%	45.48
satursin(x)	82.6%	44.83
arctan(x)	82.4%	46.62
isru(x)	82.3%	45.93
linearclip(x)	82.3%	45.49
LayerNorm	82.3%	45.91

消融实验 - 可学习偏移s的效果¶

函数	无s	有s	说明
erf(x)	82.6%	82.8%	s贡献+0.2%
tanh(x)	82.5%	82.6%	s贡献+0.1%
isru(x)	82.2%	82.3%	s贡献+0.1%

关键发现¶

Derf在所有领域一致超越LayerNorm和DyT：ViT、DiT、wav2vec、DNA模型均取得最优，唯GPT-2与LN持平（仍优于DyT）。
erf比tanh好不仅因为偏移s：去掉s后erf(82.6%)仍高于tanh带s(82.6%)，在DiT上差距更明显（63.39 vs 63.94）。
增益来自泛化而非拟合：Derf训练损失高于LN但测试性能更好，说明逐点函数的简单性起到了隐式正则化作用。
四属性中有界性和中心敏感性影响最大：违反有界性可能导致训练崩溃，违反中心敏感性直接导致性能断崖式下降。

亮点与洞察¶

从"能替代"到"能超越"的跨越：DyT证明逐点函数≈归一化层，Derf证明逐点函数>归一化层，完成了无归一化Transformer研究的关键一步。这个结果暗示归一化层可能不是最优的激活调节方式。
四属性分析是可复用的设计原则：未来设计任何逐点函数替代方案时，这四个属性提供了明确的必要条件检查清单。这种系统性分析方法本身就是贡献。
隐式正则化解释很有洞察力：逐点函数固定映射（不依赖统计量）→限制自适应能力→降低过拟合→更好泛化。这个因果链条解释了为什么"更弱的拟合=更好的性能"，与dropout等经典正则化思路一脉相承。

局限与展望¶

GPT-2上Derf仅与LN持平，在更大规模LLM（如GPT-3级别）上是否仍有优势待验证。
所有实验从头训练，未讨论在已有归一化层的预训练模型上如何迁移到Derf（微调还是重头训练？）。
函数搜索仍然是手工构造候选集+grid search，能否用可微搜索或元学习自动发现更好的函数？
未讨论Derf在混合精度训练（FP16/BF16）下的数值稳定性——erf函数在低精度下的计算精度如何？
增益幅度虽然一致但绝对值不大（如ViT-B +0.5%），是否值得工程上的切换成本需要考虑。

评分¶

新颖性: ⭐⭐⭐⭐ 四属性分析系统性强，erf的选择有充分实验支持
实验充分度: ⭐⭐⭐⭐⭐ 跨越视觉、语音、DNA、语言四个领域，消融极其详尽
写作质量: ⭐⭐⭐⭐⭐ 从属性分析到函数搜索到最终方案的逻辑链非常清晰
价值: ⭐⭐⭐⭐ 证明逐点函数可超越归一化层是重要的研究信号，Derf本身是实用的drop-in替代