跳转至

Improving the Straight-Through Estimator with Zeroth-Order Information

会议: NeurIPS 2025
arXiv: 2510.23926
代码: GitHub
领域: optimization / 量化训练
关键词: quantization-aware training, straight-through estimator, zeroth-order optimization, FOGZO, gradient estimation

一句话总结

本文提出 FOGZO(First-Order-Guided Zeroth-Order Gradient Descent),将 STE 梯度作为偏置源注入零阶梯度估计中,在保留 STE 的计算效率的同时利用零阶信息纠正 STE 的偶发错误方向,仅多 2 次前向传播即在 DeiT、ResNet、LLaMA 上实现 1-22 点的精度/困惑度改善。

研究背景与动机

  1. 领域现状:量化感知训练(QAT)是获得低比特模型的有效途径,其核心挑战是 round/sign 函数几乎处处梯度为零。Straight-Through Estimator(STE)用平滑函数的 Jacobian 替代不可微运算的 Jacobian,是 QAT 的事实标准方法。
  2. STE 的问题:STE 在高精度时效果好,但在低精度(1-2 bit)时引入参数振荡,偶尔产生错误方向的梯度。尽管 STE 理论根基薄弱,13 年来一直是最主流的方法。
  3. 零阶方法的局限:n-SPSA 等零阶方法虽然理论上更sound(基于随机平滑),但需要 \(2n\) 次前向传播,对深度网络极不实际。小 \(n\) 时梯度方差爆炸,导致收敛很慢。
  4. 核心思路:STE 是一个"足够好但偶尔犯错"的梯度估计器。如果能用零阶信息纠正 STE 的这些错误,就能以接近 STE 的计算量超越 STE 的精度。

方法详解

FOGZO 算法

核心公式:构造混合扰动向量:

\[v_i = \sqrt{\beta} \cdot s_i \hat{g} + \sqrt{1-\beta} \cdot u_i\]

其中 \(\hat{g} = g/\|g\|\) 是归一化 STE 梯度,\(s_i \sim 2 \cdot \text{Ber}(0.5) - 1\) 保证零均值对称性,\(u_i \sim p(u)\) 是无偏随机扰动,\(\beta\) 控制对 STE 的信任度。

梯度估计

\[G = \frac{1}{n} \sum_{i=1}^n \frac{\hat{L}(\theta + \epsilon v_i) - \hat{L}(\theta - \epsilon v_i)}{2\epsilon} v_i\]

启发式推导

通过一阶 Taylor 展开和零均值性质,\(\mathbb{E}[G]\) 近似为:

\[\mathbb{E}[G] \approx \beta \underbrace{\hat{g}\hat{g}^\top \nabla \hat{L}_{\text{smooth}}}_{\text{biased}} + (1-\beta) \underbrace{\nabla \hat{L}_{\text{smooth}}}_{\text{unbiased}}\]
  • 当 STE 正确时(\(\hat{g}\)\(\nabla \hat{L}_{\text{smooth}}\) 对齐),\(\hat{g}^\top \nabla \hat{L}_{\text{smooth}}\) 大,biased 项贡献显著
  • 当 STE 错误时(\(\hat{g}\)\(\nabla \hat{L}_{\text{smooth}}\) 正交),biased 项被自然抑制(标量 \(\hat{g}^\top \nabla \hat{L}_{\text{smooth}} \approx 0\)

超参数选择:从 STE 到隐式平滑

关键洞察:每个 STE 隐式定义了一种平滑。STE 将不可微算子 \(h(x)\) 的 Jacobian 替换为平滑代理 \(h_{\text{smooth}}(x)\) 的 Jacobian,而代理可视为原算子在某扰动下的期望:

\[h_{\text{smooth}}(x) = \mathbb{E}_{u \sim \bar{p}(u)}[h(x + \bar{\epsilon} u)]\]

通过反解该方程获得 \((\bar{\epsilon}, \bar{p}(u))\)

STE 类型 \(\bar{\epsilon}\) \(\bar{p}(u)\)
Identity (round) \(1/(2\sqrt{3})\) \(U(-\sqrt{3}, \sqrt{3})\)
Hardtanh (sign) \(1/\sqrt{3}\) \(U(-\sqrt{3}, \sqrt{3})\)
Tanh (sign) \(\pi/\sqrt{12}\) \(\bar{\epsilon}(1-\tanh^2(\bar{\epsilon}u))/2\)
ApproxSign (sign) \(1/\sqrt{6}\) \(\text{tri}(u/\sqrt{6})/\sqrt{6}\)

实际设定中 \(\epsilon = \alpha \bar{\epsilon}\)\(\alpha\) 为量化尺度)。

\(\beta\) 调度策略

  • 训练初期 \(\beta = 1\)(完全信任 STE)
  • 线性衰减到 \(\beta_{\min}\)(逐步引入零阶修正)
  • 后期学习率小,能容忍更大的梯度方差

实验关键数据

浅层网络实验(2-layer MLP, MNIST, 2-bit)

方法 \(n\) 相对计算量 训练损失
Identity STE - baseline
n-SPSA (\(n=1\)) 1 显著差于 STE
n-SPSA (\(n=7960\)) 7960 15920× 略优于 STE
FOGZO (\(\beta=0.999, n=1\)) 1 优于 STE

核心发现:FOGZO 在 \(n=1\) 时即可超越 STE,相比 n-SPSA 达到同等性能节省 796× 计算量。

深度网络实验(固定 \(\alpha\), 各种 STE)

模型 数据集 Identity-STE Identity-FOGZO tanh-STE tanh-FOGZO
DeiT-Tiny ImageNet-100 62.72% 70.06% (+7.3%) 41.98% 46.8%
LLaMA-9m C4 (ppl) 109.95 105.64 123.97 121.51
ResNet-18 ImageNet-100 79.92% 80.42% 74.68% 75.02%

集成 SOTA 方法(LSQ + FOGZO, 2-bit 权值)

模型 数据集 LSQ+STE (loss/acc) LSQ+FOGZO (loss/acc)
DeiT-Small ImageNet-100 2.62 / 79.55% 2.57 / 80.06%
LLaMA-20m 13B C4 tokens (ppl) 50.85 50.61
ResNet-50 ImageNet-100 0.43 / 82.81% 0.39 / 83.67%

权值-激活量化(QuEST/LSQ + FOGZO, 2-bit W+A)

模型规模 QuEST (ppl) QuEST-FOGZO (ppl) LSQ (ppl) LSQ-FOGZO (ppl)
95M 37.75 37.37 39.06 37.38
200M 26.63 26.45 - -
300M 22.90 22.72 - -

训练时间对比(LLaMA-30M, RTX 5090)

方法 C4 tokens 困惑度 训练时间
STE 3.522B 38.25 3.7h
70% STE + 30% FOGZO 3.0B 37.93 3.7h

:相同训练时间下 FOGZO 用更少数据达到更低困惑度,说明数据效率更高。

亮点与洞察

  • 极简有效:仅额外 2 次前向传播(\(n=1\)),实现上就是在标准 backward 后加一步有限差分,无需修改优化器
  • STE 隐式平滑的优美联系:将 STE 代理函数反解为随机平滑,为零阶方法的 \(\epsilon\)\(p(u)\) 选择提供了原则性指导
  • 自适应抑制机制:当 STE 给出错误方向时,有限差分自然将其贡献压缩为零;正确时则保留——无需额外检测机制
  • 广泛适用:与 Identity/tanh/ApproxSign 等各种 STE、LSQ/QuEST 等 SOTA 量化方法均可组合

局限性 / 可改进方向

  • 理论保证较弱:主要依赖启发式推导(一阶 Taylor + 零均值假设),缺乏收敛性严格证明
  • \(\beta_{\min}\) 需要调:虽然接近 1 的范围较窄,但仍需要少量搜索
  • 仅测试到 300M 参数:是否在 billion 级模型上仍有收益需验证
  • 额外的内存/计算开销:虽然 \(n=1\) 时开销可控(约多 60-70% 训练时间),但在极大规模训练中可能仍不可忽略
  • 作者用"r% STE + (100-r)% FOGZO"缓解开销:但最优 \(r\) 值也是超参数

评分

  • 新颖性: ⭐⭐⭐⭐ STE + 零阶混合的思路新颖,STE 隐式平滑解析是加分项
  • 理论深度: ⭐⭐⭐ 主要是启发式推导,缺乏严格收敛性分析
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 MLP/CNN/ViT/LLM,多种量化方法,多种 STE,训练时间对比
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,推导过程易跟随,实验组织良好
  • 实用价值: ⭐⭐⭐⭐⭐ 即插即用,对低比特量化训练有直接的实际意义

与相关工作的对比

启发与关联

评分