How Numerical Precision Affects Arithmetical Reasoning Capabilities of LLMs¶
会议: ACL 2025 (Findings) arXiv: 2410.13857 代码: 无 领域: LLM推理 关键词: numerical precision, arithmetic reasoning, Transformer expressiveness, circuit complexity, quantization
一句话总结¶
从电路复杂度理论出发,严格证明低精度(如 int4/int8)Transformer 在迭代加法和整数乘法上需要超多项式规模才能求解,而标准精度(float32)Transformer 仅需常数深度+多项式宽度即可高效求解三类算术任务,并在 LLaMA-3.1-8B 上实验验证了精度对算术能力的关键影响。
研究背景与动机¶
- 领域现状:Transformer-based LLM 在各种 NLP 任务上表现卓越,但数学推理仍是短板。各种策略(CoT prompting、inference-time search)虽有改善,但对 LLM 数学能力的内在限制理解不足。
- 现有痛点:(a) 已有理论分析(Feng et al., 2023; Yang et al., 2024)假设每个整数是一个独立 token,与实际 LLM 的 tokenization 不符(现代 LLM 将数字切成最多 3 位一组的 token);(b) 实践中低精度量化(int4, float8)导致数学能力显著下降,但缺乏理论解释。
- 核心矛盾:数值精度如何影响 Transformer 的算术表达能力?低精度模型在算术任务上为什么会失败?
- 本文要解决什么:为三类基本算术任务(整数加法、迭代加法、整数乘法)提供严格的表达能力界——低精度下的不可能性结果 + 标准精度下的可解性证明。
- 切入角度:将 Transformer 建模为计算电路,利用电路复杂度类 \(\mathsf{AC}^0\) 和 \(\mathsf{TC}^0\) 的分离结果分析精度对表达能力的影响。
- 核心 idea:低精度 Transformer(常数位宽)的表达能力被限制在 \(\mathsf{AC}^0\),而迭代加法/乘法超出 \(\mathsf{AC}^0\);标准精度(\(O(\log n)\) 位)使 Transformer 升级到 \(\mathsf{TC}^0\),足以高效求解所有算术任务。
方法详解¶
整体框架¶
研究三类递增复杂度的算术任务: - \(\text{ADD}_p(n)\):两个 \(n\) 位 base-\(p\) 整数加法 - \(\text{IterADD}_p(n,k)\):\(k\) 个 \(n\) 位整数迭代加法 - \(\text{MUL}_p(n,l)\):两个 \(n\) 位整数乘法(输出截断到 \(l\) 位)
采用与现代 LLM 一致的 tokenization:每个 token 最多含 \(c\) 个连续数字位。在自回归范式下逐 token 生成结果。
关键设计¶
- 低精度不可能性结果(Theorems 4.2, 4.3)
- 做什么:证明常数精度(每个神经元 \(c\) bit)bounded-depth Transformer 需要超多项式规模才能求解迭代加法和乘法
- 核心思路:将常数精度 Transformer 建模为 \(\mathsf{AC}^0\) 电路(多项式大小、常数深度、无界扇入 AND/OR 门)。利用经典结果——Majority 函数不在 \(\mathsf{AC}^0\) 中(Razborov, 1987)——通过归约证明 \(\text{IterADD}\) 和 \(\text{MUL}\) 也不在 \(\mathsf{AC}^0\) 中
- 设计动机:低精度下单个神经元无法存储中间计算结果(如进位链的累积),需要超多项式数量的神经元来分布式存储,导致模型规模爆炸
-
特殊情况:简单的两整数加法 \(\text{ADD}\) 可以在 \(\mathsf{AC}^0\) 中求解(Theorem 4.1),只需 \(O(n^2)\) 宽度
-
标准精度可解性证明(Theorems 5.1-5.3)
- 做什么:构造性证明 \(O(\log n)\) 精度 Transformer 可高效求解全部三类任务
- 核心思路:对数精度 Transformer 的表达能力对应 \(\mathsf{TC}^0\)(包含 Majority 门)。具体构造方案:
- \(\text{ADD}_p(n)\):常数深度 + 常数宽度(独立于 \(n\))
- \(\text{IterADD}_p(n,k)\):常数深度 + 常数宽度(独立于 \(n\) 和 \(k\))
- \(\text{MUL}_p(n,l)\):常数深度 + \(O(n^2)\) 宽度
-
设计动机:\(O(\log n)\) bit 精度允许每个神经元存储 \(n\) 级别的整数值(因为 \(\log_2(n) \approx 32\) 对应上下文长度 \(\sim\)100K),足以表示进位链和部分积
-
从 \(\mathsf{AC}^0\) 到 \(\mathsf{TC}^0\) 的关键跃迁
- 做什么:解释精度提升的本质
- 核心思路:常数精度 → \(\mathsf{AC}^0\)(无 Majority),对数精度 → \(\mathsf{TC}^0\)(含 Majority)。这不是渐进改进而是复杂度类的质变——即使精度只从 8 bit 提到 32 bit(常数 → 对数),也能跨越 \(\mathsf{AC}^0/\mathsf{TC}^0\) 分界
- 实际含义:float32 对数学推理不是"奢侈"而是"必需"
实验验证策略¶
- 从头训练小模型:base-2/base-10,3层/5层 Transformer,float32 vs bfloat16
- LLaMA-3.1-8B:原始 bfloat16 vs int4 量化 vs LoRA微调 vs QLoRA微调
实验关键数据¶
主实验(从头训练)¶
| 任务 | 精度 | 数字长度=短 | 数字长度=长 | 趋势 |
|---|---|---|---|---|
| 整数加法 (base-10) | float32 | >94% | >94% | 几乎不降 |
| 整数加法 (base-10) | bfloat16 | >94% | >94% | 几乎不降 |
| 迭代加法 (base-2, 3数) | float32 | ~100% | ~100% | 稳定 |
| 迭代加法 (base-2, 3数) | bfloat16 | ~100% | 显著下降 | 长度7-10急剧恶化 |
| 整数乘法 (base-2) | float32 | ~100% | 逐渐下降 | 长位仍保持较高 |
| 整数乘法 (base-2) | bfloat16 | ~100% | 急剧下降 | 长度13后近乎归零 |
LLaMA-3.1-8B 实验¶
| 任务 | 设置 | 短位数 | 长位数 | 说明 |
|---|---|---|---|---|
| 迭代加法(3数) | bfloat16 原始 | ~80% | ~60% | 基线 |
| 迭代加法(3数) | int4 量化 | ~60% | ~40% | 降约20% |
| 迭代加法(3数) | LoRA (bf16) | ~95% | ~85% | 微调提升大 |
| 迭代加法(3数) | QLoRA (int4) | ~90% | ~70% | 低精度微调仍不如bf16原始 |
关键发现¶
- 简单加法对精度不敏感——float32 和 bfloat16 表现几乎一致,与理论预测吻合(\(\text{ADD} \in \mathsf{AC}^0\))
- 复杂任务精度差距随位数增长急剧扩大——在 base-2 乘法中,bfloat16 在长度 13 后准确率暴跌,而 float32 仍保持合理水平
- 低精度微调无法弥补精度缺陷——QLoRA (int4) 微调后的 LLaMA 在某些任务上甚至不如 bfloat16 原始模型
- 更深网络可部分缓解但不能根治——5 层比 3 层好一些,但 bfloat16 仍在长位数崩溃
亮点与洞察¶
- 理论与实验的精确对应:三个不可能性/可能性定理分别对应三类任务的实验现象——加法两种精度都行,迭代加法/乘法低精度崩溃。这种理论预测→实验验证的完美对应很有说服力
- 实用指导意义:直接回答了"量化对数学推理影响多大"——简单计算可以量化,涉及进位传播的复杂计算(如多数相加、乘法)不可量化。对 LLM 部署策略有直接指导
- 电路复杂度框架的价值:\(\mathsf{AC}^0\) vs \(\mathsf{TC}^0\) 分离提供了理解 Transformer 表达能力的清晰框架,比经验性的"量化掉点"分析更有深度
局限性 / 可改进方向¶
- 仅覆盖三类基本算术:未考虑除法、模运算、浮点运算等更复杂操作
- 仅分析精度一个因素:实际数学推理还受 CoT 长度、上下文窗口、attention pattern 等影响
- 理论与实践精度定义有差距:理论上的"常数精度"(c bit) vs 实际的 bfloat16 (16bit) 之间有 gap——bfloat16 并非严格 \(\mathsf{AC}^0\),但指数位有限确实限制了中间计算范围
- 未讨论混合精度:实际部署中常用不同层不同精度的策略,是否存在"关键层保持高精度"的选择性量化方案?
相关工作与启发¶
- vs Feng et al. (2023):他们假设每个整数一个 token(不现实),本文采用现代 LLM 的 multi-digit tokenization,结论更具实践价值
- vs Li et al. (2024):他们证明了常数精度 Transformer ⊆ \(\mathsf{AC}^0\),本文在此基础上进一步证明具体算术任务的不可能性
- vs 量化实证研究 (Jin et al., 2024; Marchisio et al., 2024):他们实证发现量化损害数学能力,本文给出了理论解释
评分¶
- 新颖性: ⭐⭐⭐⭐ 理论结论新颖但技术路线(电路复杂度分析 Transformer)有前人铺垫
- 实验充分度: ⭐⭐⭐⭐⭐ 从头训练 + LLaMA 大模型 + 多任务多精度全面验证
- 写作质量: ⭐⭐⭐⭐⭐ 理论严谨 + 实验丰富 + 实践指导清晰,40页完整附录
- 价值: ⭐⭐⭐⭐ 理论有深度、实践有指导,但数学推理的关键瓶颈可能不在精度
- 价值: 待评