Transformers without Normalization¶
会议: CVPR 2025
arXiv: 2503.10622
代码: https://jiachenzhu.github.io/DyT (有)
领域: 自监督学习 / 网络架构
关键词: Dynamic Tanh, 归一化替代, LayerNorm, Transformer架构, 激活压缩
一句话总结¶
发现 LayerNorm 的输入-输出映射呈 tanh 形状,提出 Dynamic Tanh (DyT) 作为归一化层的即插即用替代:\(\text{DyT}(x) = \gamma \odot \tanh(\alpha x) + \beta\),在视觉/语言/扩散/语音等多任务中与 LN 性能持平甚至更优。
研究背景与动机¶
领域现状:归一化层(LayerNorm/RMSNorm)是 Transformer 的标配组件,通过计算 token 级统计量将激活归一化到标准分布。几乎所有 Transformer 变体都离不开归一化。
现有痛点:归一化层需要在线计算每个 token 的均值和方差,增加了计算开销和实现复杂度。更重要的是,归一化的"必要性"从未被真正理解——它到底在做什么?
核心矛盾:归一化被认为是稳定训练的必需品,但没有人系统研究过它是否可以被更简单的操作替代。
切入角度:可视化 LayerNorm 在训练好模型中的输入-输出映射,发现它呈现出惊人规律的 S 形曲线——几乎就是 tanh 函数。这暗示归一化的核心作用可能只是"压缩"激活范围。
核心 idea:LayerNorm ≈ 可学习的逐元素 tanh 压缩——无需 token 级统计量即可替代归一化。
方法详解¶
关键设计¶
-
Dynamic Tanh (DyT):
- 功能:无需计算统计量的归一化替代
- 核心思路:\(\text{DyT}(x) = \gamma \odot \tanh(\alpha x) + \beta\),其中 \(\alpha\) 是可学习标量(控制压缩强度),\(\gamma, \beta\) 是逐通道的缩放/偏移。tanh 将输入压缩到 \([-1, 1]\),\(\alpha\) 学习适当的缩放使压缩程度匹配 LN 的效果
- 设计动机:\(\alpha\) 的学习值与激活标准差的倒数高度相关,说明 DyT 自动学会了一种"全局归一化"——不需要逐 token 计算统计量
-
跨任务通用性:
- 功能:证明 DyT 不只是某个任务的技巧
- 核心思路:在 ViT(分类)、MAE/DINO(自监督)、DiT(扩散)、LLaMA(语言)、wav2vec(语音)等完全不同的架构和任务上验证,直接替换 LN/RMSNorm 即可
- 设计动机:如果 DyT 只在某个任务上有效,可能只是巧合;但跨多领域一致有效说明发现了归一化的本质功能
损失函数 / 训练策略¶
不改变任何训练设置,仅将 LN/RMSNorm 替换为 DyT。\(\alpha\) 默认初始化为 0.5。LLaMA 需要特殊初始化(Section 7)。
实验关键数据¶
主实验¶
| 模型/任务 | DyT | LayerNorm/RMSNorm |
|---|---|---|
| ViT-B (ImageNet) | 82.5% | 82.3% |
| ViT-L (ImageNet) | 83.6% | 83.1% |
| DiT-B (FID↓) | 63.9 | 64.9 |
| LLaMA-7B (loss) | ≈相同 | ≈相同 |
| wav2vec 2.0 | ≈相同 | ≈相同 |
消融实验¶
| 配置 | ViT-B Top-1 | 说明 |
|---|---|---|
| DyT (完整) | 82.5% | — |
| 无 \(\alpha\)(固定=1) | 81.1% | \(\alpha\) 关键 |
| 用 hardtanh | 82.0% | tanh 更优 |
| 用 sigmoid | 81.8% | tanh 最优 |
| 用 identity | 发散 | 压缩不可缺 |
关键发现¶
- tanh 压缩是归一化的核心功能:identity(无压缩)直接导致训练发散,验证了压缩的必要性
- \(\alpha\) 自动学到归一化效果:其值与 1/std 高度相关,等效于一种全局归一化
- 扩散模型获益最大:DiT 上 DyT 超越 LN(FID 63.9 vs 64.9),可能因为扩散的时间步条件与 token 级归一化冲突
亮点与洞察¶
- 对 Transformer 基本组件的根本性质疑——归一化层被认为不可或缺已有 7 年,本文证明一个简单的 tanh 就够了
- 极简但深刻——整个方法就一行公式,但背后的洞察(LN ≈ tanh)改变了对归一化作用的理解
- 实践意义:DyT 不需要 token 级统计,对硬件友好(无 reduce 操作),在长序列/大 batch 下可能更高效
局限与展望¶
- DyT 不计算 per-token 统计,对 token 间幅度差异大的场景可能不适用
- LLaMA 需要特殊 \(\alpha\) 初始化,通用性稍打折扣
- 缺少理论解释——为什么 tanh 近似就够了?
- 对极端训练设置(超大 batch、混精度)的鲁棒性未充分探索
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 对基本组件的颠覆性洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 横跨视觉/语言/扩散/语音/自监督五大领域
- 写作质量: ⭐⭐⭐⭐⭐ 简洁优雅
- 价值: ⭐⭐⭐⭐⭐ 有望改变 Transformer 架构设计的基本范式
相关论文¶
- [ICML 2025] PDE-Transformer: Efficient and Versatile Transformers for Physics Simulations
- [ICCV 2025] CObL: Toward Zero-Shot Ordinal Layering without User Prompting
- [ICML 2025] Test-Time Training Provably Improves Transformers as In-Context Learners
- [CVPR 2026] Vision Transformers Need More Than Registers
- [CVPR 2026] DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers