跳转至

Stronger Normalization-Free Transformers

会议: CVPR 2026
arXiv: 2512.10938
代码: 有 (论文中提供链接)
领域: 模型压缩 / 架构设计
关键词: 无归一化Transformer, 逐点函数, Derf, 归一化层替代, 泛化性

一句话总结

通过系统分析逐点函数替代归一化层所需的四个关键属性(零中心性、有界性、中心敏感性、单调性),在大规模搜索中发现 \(\text{Derf}(x) = \text{erf}(\alpha x + s)\) 是最优的归一化层替代函数,在视觉识别、图像生成、语音表示和DNA序列建模等多个领域持续超越LayerNorm和DyT,且性能增益主要来自更强的泛化而非拟合能力。

研究背景与动机

  1. 领域现状:归一化层(BatchNorm、LayerNorm、RMSNorm)是现代深度网络的核心组件,通过调节中间激活的分布来稳定训练和加速收敛。最近Dynamic Tanh (DyT) 证明了逐点函数 \(\tanh(\alpha x)\) 可以作为归一化层的drop-in替代,达到相当的性能。

  2. 现有痛点

    • 归一化层依赖激活统计量(均值、方差),带来额外的内存访问和同步开销。
    • 某些归一化对batch size敏感,小batch下训练不稳定。
    • DyT虽然成功匹配了归一化层性能,但未能超越它——大家接受"无归一化≈有归一化"但还没人证明"无归一化>有归一化"。
  3. 核心矛盾:DyT建立了逐点函数可以替代归一化层的基础,但设计空间中还有哪些函数可能更好?什么样的函数属性才是关键的?能否找到超越归一化层的逐点函数?

  4. 本文目标

    • 系统理解逐点函数的哪些属性影响训练动态和最终性能
    • 在候选函数集合中搜索最优设计
    • 证明逐点函数不仅能替代归一化层,还能超越它
  5. 切入角度:从函数的内在属性出发(零中心性、有界性、中心敏感性、单调性),通过控制变量实验隔离每个属性的影响,再基于这些原则指导函数搜索。

  6. 核心 idea:满足四个关键属性的S形逐点函数 \(\text{erf}(\alpha x + s)\) 不仅能替代归一化层,还能通过更强的泛化能力持续超越它。

方法详解

整体框架

工作分两部分:(1) 函数属性分析——系统研究四个属性对训练的影响;(2) 函数搜索——在满足属性约束的候选集中搜索最优函数。最终提出Derf作为归一化层的drop-in替代,集成方式为 \(y = \gamma * \text{erf}(\alpha x + s) + \beta\)

关键设计

  1. 四大函数属性分析:

    • 功能:建立逐点函数替代归一化层的设计原则。
    • 核心思路:在ViT-Base上用控制变量法逐一分析四个属性:
      • 零中心性:水平/垂直偏移实验显示,|λ| ≤ 0.5时性能影响小,|λ| ≥ 2时训练崩溃。输出必须围绕零平衡。
      • 有界性:对无界函数(如arcsinh)加clipping后性能一致提升;将有界函数混合线性项变得无界后性能下降。有界性对稳定优化很重要。增长率有上限——logquad(x)是仍能收敛的最快增长函数。
      • 中心敏感性:在原点附近引入平坦区域,λ越大性能越差,λ≥3时训练崩溃。因为大部分激活集中在零附近,此处的响应性直接影响信号传播。
      • 单调性:单调递增/递减都正常训练,但非单调(如hump-shaped、振荡)函数性能明显下降。单调性保持激活的相对顺序。
    • 设计动机:之前DyT只凭直觉选了tanh,缺乏系统性分析。这四个属性为函数设计提供了明确的必要条件。
  2. 大规模函数搜索:

    • 功能:在满足四属性约束的候选集中找到最优函数。
    • 核心思路:从常用标量函数和CDF出发(多项式、有理、指数、对数、三角等),通过平移、缩放、镜像、旋转、clipping等变换生成满足四属性的候选子集。统一形式为 \(y = \gamma * f(\alpha x + s) + \beta\),在ViT-Base(Top-1 Acc)和DiT-B/4、DiT-L/4(FID)上评估。结果显示erf(x)在所有候选中表现最优:ViT-B 82.8%(vs LayerNorm 82.3%),DiT-L/4 FID 43.94(vs 45.91)。
    • 设计动机:虽然很多S形函数外观相似,但它们的性能差异明显。系统搜索比直觉选择更可靠。
  3. Dynamic erf (Derf):

    • 功能:最终提出的归一化层替代方案。
    • 核心思路:\(\text{Derf}(x) = \gamma * \text{erf}(\alpha x + s) + \beta\),其中erf(x)是标准高斯CDF的缩放版本 \(\frac{2}{\sqrt{\pi}} \int_0^x e^{-t^2} dt\)\(\alpha\) 初始化为0.5,\(s\) 初始化为0,\(\gamma\) 全1,\(\beta\) 全0。Drop-in替换:pre-attention、pre-FFN和最终的归一化层各替换一个Derf层。可学习参数 \(s\) 是标量而非向量(实验证明向量形式无额外收益)。
    • 设计动机:erf(x)天然满足四个属性(零中心、有界于[-1,1]、原点处敏感、严格单调递增),且其作为高斯CDF的平滑特性可能比tanh的指数饱和更有利于梯度传播。

关键发现:泛化而非拟合

通过评估模式下计算训练损失发现:所有模型和规模上,训练损失排序为 Norm < Derf < DyT。即Derf的拟合能力比归一化层更弱,但最终性能更好——说明Derf的优势来自更强的泛化。逐点函数由于只有少量标量参数(\(\alpha, s\))而非依赖激活统计量自适应,限制了过拟合,起到了隐式正则化的效果。

实验关键数据

主实验

模型/任务 LayerNorm DyT Derf ΔLN
ViT-B (ImageNet Acc↑) 82.3% 82.5% 82.8% +0.5%
ViT-L (ImageNet Acc↑) 83.1% 83.6% 83.8% +0.7%
DiT-B/4 (FID↓) 64.93 63.94 63.23 -1.70
DiT-L/4 (FID↓) 45.91 45.66 43.94 -1.97
DiT-XL/2 (FID↓) 19.94 20.83 18.92 -1.02
wav2vec 2.0 Base (Loss↓) 1.95 1.95 1.93 -0.02
wav2vec 2.0 Large (Loss↓) 1.92 1.91 1.90 -0.02
HyenaDNA (Acc↑) 85.2% 85.2% 85.7% +0.5%
Caduceus (Acc↑) 86.9% 86.9% 87.3% +0.4%
GPT-2 (Loss↓) 2.94 2.97 2.94 0.00

消融实验 - 函数搜索结果

函数 ViT-B Acc↑ DiT-L/4 FID↓
erf(x) [Derf] 82.8% 43.94
tanh(x) [DyT] 82.6% 45.48
satursin(x) 82.6% 44.83
arctan(x) 82.4% 46.62
isru(x) 82.3% 45.93
linearclip(x) 82.3% 45.49
LayerNorm 82.3% 45.91

消融实验 - 可学习偏移s的效果

函数 无s 有s 说明
erf(x) 82.6% 82.8% s贡献+0.2%
tanh(x) 82.5% 82.6% s贡献+0.1%
isru(x) 82.2% 82.3% s贡献+0.1%

关键发现

  • Derf在所有领域一致超越LayerNorm和DyT:ViT、DiT、wav2vec、DNA模型均取得最优,唯GPT-2与LN持平(仍优于DyT)。
  • erf比tanh好不仅因为偏移s:去掉s后erf(82.6%)仍高于tanh带s(82.6%),在DiT上差距更明显(63.39 vs 63.94)。
  • 增益来自泛化而非拟合:Derf训练损失高于LN但测试性能更好,说明逐点函数的简单性起到了隐式正则化作用。
  • 四属性中有界性和中心敏感性影响最大:违反有界性可能导致训练崩溃,违反中心敏感性直接导致性能断崖式下降。

亮点与洞察

  • 从"能替代"到"能超越"的跨越:DyT证明逐点函数≈归一化层,Derf证明逐点函数>归一化层,完成了无归一化Transformer研究的关键一步。这个结果暗示归一化层可能不是最优的激活调节方式。
  • 四属性分析是可复用的设计原则:未来设计任何逐点函数替代方案时,这四个属性提供了明确的必要条件检查清单。这种系统性分析方法本身就是贡献。
  • 隐式正则化解释很有洞察力:逐点函数固定映射(不依赖统计量)→限制自适应能力→降低过拟合→更好泛化。这个因果链条解释了为什么"更弱的拟合=更好的性能",与dropout等经典正则化思路一脉相承。

局限与展望

  • GPT-2上Derf仅与LN持平,在更大规模LLM(如GPT-3级别)上是否仍有优势待验证。
  • 所有实验从头训练,未讨论在已有归一化层的预训练模型上如何迁移到Derf(微调还是重头训练?)。
  • 函数搜索仍然是手工构造候选集+grid search,能否用可微搜索或元学习自动发现更好的函数?
  • 未讨论Derf在混合精度训练(FP16/BF16)下的数值稳定性——erf函数在低精度下的计算精度如何?
  • 增益幅度虽然一致但绝对值不大(如ViT-B +0.5%),是否值得工程上的切换成本需要考虑。

相关工作与启发

  • vs DyT (Dynamic Tanh):Derf在所有任务上超越DyT,主要因为erf(x)的数学特性(高斯CDF)比tanh的指数饱和更适合激活调节。ViT-B上+0.3%,DiT-L/4上FID低1.72。
  • vs LayerNorm:Derf以更弱的拟合能力实现了更好的泛化,证明了归一化层中基于统计量的自适应可能导致轻微过拟合。
  • vs RMSNorm:在Caduceus(默认RMSNorm)上Derf也超越了+0.4%,说明Derf的优势不限于替代LN。

评分

  • 新颖性: ⭐⭐⭐⭐ 四属性分析系统性强,erf的选择有充分实验支持
  • 实验充分度: ⭐⭐⭐⭐⭐ 跨越视觉、语音、DNA、语言四个领域,消融极其详尽
  • 写作质量: ⭐⭐⭐⭐⭐ 从属性分析到函数搜索到最终方案的逻辑链非常清晰
  • 价值: ⭐⭐⭐⭐ 证明逐点函数可超越归一化层是重要的研究信号,Derf本身是实用的drop-in替代

相关论文