Stronger Normalization-Free Transformers¶
会议: CVPR 2026
arXiv: 2512.10938
代码: 有 (论文中提供链接)
领域: 模型压缩 / 架构设计
关键词: 无归一化Transformer, 逐点函数, Derf, 归一化层替代, 泛化性
一句话总结¶
通过系统分析逐点函数替代归一化层所需的四个关键属性(零中心性、有界性、中心敏感性、单调性),在大规模搜索中发现 \(\text{Derf}(x) = \text{erf}(\alpha x + s)\) 是最优的归一化层替代函数,在视觉识别、图像生成、语音表示和DNA序列建模等多个领域持续超越LayerNorm和DyT,且性能增益主要来自更强的泛化而非拟合能力。
研究背景与动机¶
-
领域现状:归一化层(BatchNorm、LayerNorm、RMSNorm)是现代深度网络的核心组件,通过调节中间激活的分布来稳定训练和加速收敛。最近Dynamic Tanh (DyT) 证明了逐点函数 \(\tanh(\alpha x)\) 可以作为归一化层的drop-in替代,达到相当的性能。
-
现有痛点:
- 归一化层依赖激活统计量(均值、方差),带来额外的内存访问和同步开销。
- 某些归一化对batch size敏感,小batch下训练不稳定。
- DyT虽然成功匹配了归一化层性能,但未能超越它——大家接受"无归一化≈有归一化"但还没人证明"无归一化>有归一化"。
-
核心矛盾:DyT建立了逐点函数可以替代归一化层的基础,但设计空间中还有哪些函数可能更好?什么样的函数属性才是关键的?能否找到超越归一化层的逐点函数?
-
本文目标
- 系统理解逐点函数的哪些属性影响训练动态和最终性能
- 在候选函数集合中搜索最优设计
- 证明逐点函数不仅能替代归一化层,还能超越它
-
切入角度:从函数的内在属性出发(零中心性、有界性、中心敏感性、单调性),通过控制变量实验隔离每个属性的影响,再基于这些原则指导函数搜索。
-
核心 idea:满足四个关键属性的S形逐点函数 \(\text{erf}(\alpha x + s)\) 不仅能替代归一化层,还能通过更强的泛化能力持续超越它。
方法详解¶
整体框架¶
工作分两部分:(1) 函数属性分析——系统研究四个属性对训练的影响;(2) 函数搜索——在满足属性约束的候选集中搜索最优函数。最终提出Derf作为归一化层的drop-in替代,集成方式为 \(y = \gamma * \text{erf}(\alpha x + s) + \beta\)。
关键设计¶
-
四大函数属性分析:
- 功能:建立逐点函数替代归一化层的设计原则。
- 核心思路:在ViT-Base上用控制变量法逐一分析四个属性:
- 零中心性:水平/垂直偏移实验显示,|λ| ≤ 0.5时性能影响小,|λ| ≥ 2时训练崩溃。输出必须围绕零平衡。
- 有界性:对无界函数(如arcsinh)加clipping后性能一致提升;将有界函数混合线性项变得无界后性能下降。有界性对稳定优化很重要。增长率有上限——logquad(x)是仍能收敛的最快增长函数。
- 中心敏感性:在原点附近引入平坦区域,λ越大性能越差,λ≥3时训练崩溃。因为大部分激活集中在零附近,此处的响应性直接影响信号传播。
- 单调性:单调递增/递减都正常训练,但非单调(如hump-shaped、振荡)函数性能明显下降。单调性保持激活的相对顺序。
- 设计动机:之前DyT只凭直觉选了tanh,缺乏系统性分析。这四个属性为函数设计提供了明确的必要条件。
-
大规模函数搜索:
- 功能:在满足四属性约束的候选集中找到最优函数。
- 核心思路:从常用标量函数和CDF出发(多项式、有理、指数、对数、三角等),通过平移、缩放、镜像、旋转、clipping等变换生成满足四属性的候选子集。统一形式为 \(y = \gamma * f(\alpha x + s) + \beta\),在ViT-Base(Top-1 Acc)和DiT-B/4、DiT-L/4(FID)上评估。结果显示erf(x)在所有候选中表现最优:ViT-B 82.8%(vs LayerNorm 82.3%),DiT-L/4 FID 43.94(vs 45.91)。
- 设计动机:虽然很多S形函数外观相似,但它们的性能差异明显。系统搜索比直觉选择更可靠。
-
Dynamic erf (Derf):
- 功能:最终提出的归一化层替代方案。
- 核心思路:\(\text{Derf}(x) = \gamma * \text{erf}(\alpha x + s) + \beta\),其中erf(x)是标准高斯CDF的缩放版本 \(\frac{2}{\sqrt{\pi}} \int_0^x e^{-t^2} dt\)。\(\alpha\) 初始化为0.5,\(s\) 初始化为0,\(\gamma\) 全1,\(\beta\) 全0。Drop-in替换:pre-attention、pre-FFN和最终的归一化层各替换一个Derf层。可学习参数 \(s\) 是标量而非向量(实验证明向量形式无额外收益)。
- 设计动机:erf(x)天然满足四个属性(零中心、有界于[-1,1]、原点处敏感、严格单调递增),且其作为高斯CDF的平滑特性可能比tanh的指数饱和更有利于梯度传播。
关键发现:泛化而非拟合¶
通过评估模式下计算训练损失发现:所有模型和规模上,训练损失排序为 Norm < Derf < DyT。即Derf的拟合能力比归一化层更弱,但最终性能更好——说明Derf的优势来自更强的泛化。逐点函数由于只有少量标量参数(\(\alpha, s\))而非依赖激活统计量自适应,限制了过拟合,起到了隐式正则化的效果。
实验关键数据¶
主实验¶
| 模型/任务 | LayerNorm | DyT | Derf | ΔLN |
|---|---|---|---|---|
| ViT-B (ImageNet Acc↑) | 82.3% | 82.5% | 82.8% | +0.5% |
| ViT-L (ImageNet Acc↑) | 83.1% | 83.6% | 83.8% | +0.7% |
| DiT-B/4 (FID↓) | 64.93 | 63.94 | 63.23 | -1.70 |
| DiT-L/4 (FID↓) | 45.91 | 45.66 | 43.94 | -1.97 |
| DiT-XL/2 (FID↓) | 19.94 | 20.83 | 18.92 | -1.02 |
| wav2vec 2.0 Base (Loss↓) | 1.95 | 1.95 | 1.93 | -0.02 |
| wav2vec 2.0 Large (Loss↓) | 1.92 | 1.91 | 1.90 | -0.02 |
| HyenaDNA (Acc↑) | 85.2% | 85.2% | 85.7% | +0.5% |
| Caduceus (Acc↑) | 86.9% | 86.9% | 87.3% | +0.4% |
| GPT-2 (Loss↓) | 2.94 | 2.97 | 2.94 | 0.00 |
消融实验 - 函数搜索结果¶
| 函数 | ViT-B Acc↑ | DiT-L/4 FID↓ |
|---|---|---|
| erf(x) [Derf] | 82.8% | 43.94 |
| tanh(x) [DyT] | 82.6% | 45.48 |
| satursin(x) | 82.6% | 44.83 |
| arctan(x) | 82.4% | 46.62 |
| isru(x) | 82.3% | 45.93 |
| linearclip(x) | 82.3% | 45.49 |
| LayerNorm | 82.3% | 45.91 |
消融实验 - 可学习偏移s的效果¶
| 函数 | 无s | 有s | 说明 |
|---|---|---|---|
| erf(x) | 82.6% | 82.8% | s贡献+0.2% |
| tanh(x) | 82.5% | 82.6% | s贡献+0.1% |
| isru(x) | 82.2% | 82.3% | s贡献+0.1% |
关键发现¶
- Derf在所有领域一致超越LayerNorm和DyT:ViT、DiT、wav2vec、DNA模型均取得最优,唯GPT-2与LN持平(仍优于DyT)。
- erf比tanh好不仅因为偏移s:去掉s后erf(82.6%)仍高于tanh带s(82.6%),在DiT上差距更明显(63.39 vs 63.94)。
- 增益来自泛化而非拟合:Derf训练损失高于LN但测试性能更好,说明逐点函数的简单性起到了隐式正则化作用。
- 四属性中有界性和中心敏感性影响最大:违反有界性可能导致训练崩溃,违反中心敏感性直接导致性能断崖式下降。
亮点与洞察¶
- 从"能替代"到"能超越"的跨越:DyT证明逐点函数≈归一化层,Derf证明逐点函数>归一化层,完成了无归一化Transformer研究的关键一步。这个结果暗示归一化层可能不是最优的激活调节方式。
- 四属性分析是可复用的设计原则:未来设计任何逐点函数替代方案时,这四个属性提供了明确的必要条件检查清单。这种系统性分析方法本身就是贡献。
- 隐式正则化解释很有洞察力:逐点函数固定映射(不依赖统计量)→限制自适应能力→降低过拟合→更好泛化。这个因果链条解释了为什么"更弱的拟合=更好的性能",与dropout等经典正则化思路一脉相承。
局限与展望¶
- GPT-2上Derf仅与LN持平,在更大规模LLM(如GPT-3级别)上是否仍有优势待验证。
- 所有实验从头训练,未讨论在已有归一化层的预训练模型上如何迁移到Derf(微调还是重头训练?)。
- 函数搜索仍然是手工构造候选集+grid search,能否用可微搜索或元学习自动发现更好的函数?
- 未讨论Derf在混合精度训练(FP16/BF16)下的数值稳定性——erf函数在低精度下的计算精度如何?
- 增益幅度虽然一致但绝对值不大(如ViT-B +0.5%),是否值得工程上的切换成本需要考虑。
相关工作与启发¶
- vs DyT (Dynamic Tanh):Derf在所有任务上超越DyT,主要因为erf(x)的数学特性(高斯CDF)比tanh的指数饱和更适合激活调节。ViT-B上+0.3%,DiT-L/4上FID低1.72。
- vs LayerNorm:Derf以更弱的拟合能力实现了更好的泛化,证明了归一化层中基于统计量的自适应可能导致轻微过拟合。
- vs RMSNorm:在Caduceus(默认RMSNorm)上Derf也超越了+0.4%,说明Derf的优势不限于替代LN。
评分¶
- 新颖性: ⭐⭐⭐⭐ 四属性分析系统性强,erf的选择有充分实验支持
- 实验充分度: ⭐⭐⭐⭐⭐ 跨越视觉、语音、DNA、语言四个领域,消融极其详尽
- 写作质量: ⭐⭐⭐⭐⭐ 从属性分析到函数搜索到最终方案的逻辑链非常清晰
- 价值: ⭐⭐⭐⭐ 证明逐点函数可超越归一化层是重要的研究信号,Derf本身是实用的drop-in替代
相关论文¶
- [CVPR 2026] BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers
- [CVPR 2026] PPCL: Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers
- [ICLR 2026] SeeDNorm: Self-Rescaled Dynamic Normalization
- [CVPR 2026] HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers
- [CVPR 2026] FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention