Transformers without Normalization¶

会议: CVPR 2025
arXiv: 2503.10622
代码: https://jiachenzhu.github.io/DyT (有)
领域: 自监督学习 / 网络架构
关键词: Dynamic Tanh, 归一化替代, LayerNorm, Transformer架构, 激活压缩

一句话总结¶

发现 LayerNorm 的输入-输出映射呈 tanh 形状，提出 Dynamic Tanh (DyT) 作为归一化层的即插即用替代：\(\text{DyT}(x) = \gamma \odot \tanh(\alpha x) + \beta\)，在视觉/语言/扩散/语音等多任务中与 LN 性能持平甚至更优。

研究背景与动机¶

领域现状：归一化层（LayerNorm/RMSNorm）是 Transformer 的标配组件，通过计算 token 级统计量将激活归一化到标准分布。几乎所有 Transformer 变体都离不开归一化。

现有痛点：归一化层需要在线计算每个 token 的均值和方差，增加了计算开销和实现复杂度。更重要的是，归一化的"必要性"从未被真正理解——它到底在做什么？

核心矛盾：归一化被认为是稳定训练的必需品，但没有人系统研究过它是否可以被更简单的操作替代。

切入角度：可视化 LayerNorm 在训练好模型中的输入-输出映射，发现它呈现出惊人规律的 S 形曲线——几乎就是 tanh 函数。这暗示归一化的核心作用可能只是"压缩"激活范围。

核心 idea：LayerNorm ≈ 可学习的逐元素 tanh 压缩——无需 token 级统计量即可替代归一化。

方法详解¶

关键设计¶

Dynamic Tanh (DyT):
- 功能：无需计算统计量的归一化替代
- 核心思路：\(\text{DyT}(x) = \gamma \odot \tanh(\alpha x) + \beta\)，其中 \(\alpha\) 是可学习标量（控制压缩强度），\(\gamma, \beta\) 是逐通道的缩放/偏移。tanh 将输入压缩到 \([-1, 1]\)，\(\alpha\) 学习适当的缩放使压缩程度匹配 LN 的效果
- 设计动机：\(\alpha\) 的学习值与激活标准差的倒数高度相关，说明 DyT 自动学会了一种"全局归一化"——不需要逐 token 计算统计量
跨任务通用性:
- 功能：证明 DyT 不只是某个任务的技巧
- 核心思路：在 ViT（分类）、MAE/DINO（自监督）、DiT（扩散）、LLaMA（语言）、wav2vec（语音）等完全不同的架构和任务上验证，直接替换 LN/RMSNorm 即可
- 设计动机：如果 DyT 只在某个任务上有效，可能只是巧合；但跨多领域一致有效说明发现了归一化的本质功能

损失函数 / 训练策略¶

不改变任何训练设置，仅将 LN/RMSNorm 替换为 DyT。\(\alpha\) 默认初始化为 0.5。LLaMA 需要特殊初始化（Section 7）。

实验关键数据¶

主实验¶

模型/任务	DyT	LayerNorm/RMSNorm
ViT-B (ImageNet)	82.5%	82.3%
ViT-L (ImageNet)	83.6%	83.1%
DiT-B (FID↓)	63.9	64.9
LLaMA-7B (loss)	≈相同	≈相同
wav2vec 2.0	≈相同	≈相同

消融实验¶

配置	ViT-B Top-1	说明
DyT (完整)	82.5%	—
无 \(\alpha\)（固定=1）	81.1%	\(\alpha\) 关键
用 hardtanh	82.0%	tanh 更优
用 sigmoid	81.8%	tanh 最优
用 identity	发散	压缩不可缺

关键发现¶

tanh 压缩是归一化的核心功能：identity（无压缩）直接导致训练发散，验证了压缩的必要性
\(\alpha\) 自动学到归一化效果：其值与 1/std 高度相关，等效于一种全局归一化
扩散模型获益最大：DiT 上 DyT 超越 LN（FID 63.9 vs 64.9），可能因为扩散的时间步条件与 token 级归一化冲突

亮点与洞察¶

对 Transformer 基本组件的根本性质疑——归一化层被认为不可或缺已有 7 年，本文证明一个简单的 tanh 就够了
极简但深刻——整个方法就一行公式，但背后的洞察（LN ≈ tanh）改变了对归一化作用的理解
实践意义：DyT 不需要 token 级统计，对硬件友好（无 reduce 操作），在长序列/大 batch 下可能更高效

局限与展望¶

DyT 不计算 per-token 统计，对 token 间幅度差异大的场景可能不适用
LLaMA 需要特殊 \(\alpha\) 初始化，通用性稍打折扣
缺少理论解释——为什么 tanh 近似就够了？
对极端训练设置（超大 batch、混精度）的鲁棒性未充分探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 对基本组件的颠覆性洞察
实验充分度: ⭐⭐⭐⭐⭐ 横跨视觉/语言/扩散/语音/自监督五大领域
写作质量: ⭐⭐⭐⭐⭐ 简洁优雅
价值: ⭐⭐⭐⭐⭐ 有望改变 Transformer 架构设计的基本范式