How Numerical Precision Affects Arithmetical Reasoning Capabilities of LLMs¶

会议: ACL 2025 (Findings) arXiv: 2410.13857 代码: 无领域: LLM推理 关键词: numerical precision, arithmetic reasoning, Transformer expressiveness, circuit complexity, quantization

一句话总结¶

从电路复杂度理论出发，严格证明低精度（如 int4/int8）Transformer 在迭代加法和整数乘法上需要超多项式规模才能求解，而标准精度（float32）Transformer 仅需常数深度+多项式宽度即可高效求解三类算术任务，并在 LLaMA-3.1-8B 上实验验证了精度对算术能力的关键影响。

研究背景与动机¶

领域现状：Transformer-based LLM 在各种 NLP 任务上表现卓越，但数学推理仍是短板。各种策略（CoT prompting、inference-time search）虽有改善，但对 LLM 数学能力的内在限制理解不足。
现有痛点：(a) 已有理论分析（Feng et al., 2023; Yang et al., 2024）假设每个整数是一个独立 token，与实际 LLM 的 tokenization 不符（现代 LLM 将数字切成最多 3 位一组的 token）；(b) 实践中低精度量化（int4, float8）导致数学能力显著下降，但缺乏理论解释。
核心矛盾：数值精度如何影响 Transformer 的算术表达能力？低精度模型在算术任务上为什么会失败？
本文要解决什么：为三类基本算术任务（整数加法、迭代加法、整数乘法）提供严格的表达能力界——低精度下的不可能性结果 + 标准精度下的可解性证明。
切入角度：将 Transformer 建模为计算电路，利用电路复杂度类 \(\mathsf{AC}^0\) 和 \(\mathsf{TC}^0\) 的分离结果分析精度对表达能力的影响。
核心 idea：低精度 Transformer（常数位宽）的表达能力被限制在 \(\mathsf{AC}^0\)，而迭代加法/乘法超出 \(\mathsf{AC}^0\)；标准精度（\(O(\log n)\) 位）使 Transformer 升级到 \(\mathsf{TC}^0\)，足以高效求解所有算术任务。

方法详解¶

整体框架¶

研究三类递增复杂度的算术任务： - \(\text{ADD}_p(n)\)：两个 \(n\) 位 base-\(p\) 整数加法 - \(\text{IterADD}_p(n,k)\)：\(k\) 个 \(n\) 位整数迭代加法 - \(\text{MUL}_p(n,l)\)：两个 \(n\) 位整数乘法（输出截断到 \(l\) 位）

采用与现代 LLM 一致的 tokenization：每个 token 最多含 \(c\) 个连续数字位。在自回归范式下逐 token 生成结果。

关键设计¶

低精度不可能性结果（Theorems 4.2, 4.3）
做什么：证明常数精度（每个神经元 \(c\) bit）bounded-depth Transformer 需要超多项式规模才能求解迭代加法和乘法
核心思路：将常数精度 Transformer 建模为 \(\mathsf{AC}^0\) 电路（多项式大小、常数深度、无界扇入 AND/OR 门）。利用经典结果——Majority 函数不在 \(\mathsf{AC}^0\) 中（Razborov, 1987）——通过归约证明 \(\text{IterADD}\) 和 \(\text{MUL}\) 也不在 \(\mathsf{AC}^0\) 中
设计动机：低精度下单个神经元无法存储中间计算结果（如进位链的累积），需要超多项式数量的神经元来分布式存储，导致模型规模爆炸
特殊情况：简单的两整数加法 \(\text{ADD}\) 可以在 \(\mathsf{AC}^0\) 中求解（Theorem 4.1），只需 \(O(n^2)\) 宽度
标准精度可解性证明（Theorems 5.1-5.3）
做什么：构造性证明 \(O(\log n)\) 精度 Transformer 可高效求解全部三类任务
核心思路：对数精度 Transformer 的表达能力对应 \(\mathsf{TC}^0\)（包含 Majority 门）。具体构造方案：
- \(\text{ADD}_p(n)\)：常数深度 + 常数宽度（独立于 \(n\)）
- \(\text{IterADD}_p(n,k)\)：常数深度 + 常数宽度（独立于 \(n\) 和 \(k\)）
- \(\text{MUL}_p(n,l)\)：常数深度 + \(O(n^2)\) 宽度
设计动机：\(O(\log n)\) bit 精度允许每个神经元存储 \(n\) 级别的整数值（因为 \(\log_2(n) \approx 32\) 对应上下文长度 \(\sim\)100K），足以表示进位链和部分积
从 \(\mathsf{AC}^0\) 到 \(\mathsf{TC}^0\) 的关键跃迁
做什么：解释精度提升的本质
核心思路：常数精度 → \(\mathsf{AC}^0\)（无 Majority），对数精度 → \(\mathsf{TC}^0\)（含 Majority）。这不是渐进改进而是复杂度类的质变——即使精度只从 8 bit 提到 32 bit（常数 → 对数），也能跨越 \(\mathsf{AC}^0/\mathsf{TC}^0\) 分界
实际含义：float32 对数学推理不是"奢侈"而是"必需"

实验验证策略¶

从头训练小模型：base-2/base-10，3层/5层 Transformer，float32 vs bfloat16
LLaMA-3.1-8B：原始 bfloat16 vs int4 量化 vs LoRA微调 vs QLoRA微调

实验关键数据¶

主实验（从头训练）¶

任务	精度	数字长度=短	数字长度=长	趋势
整数加法 (base-10)	float32	>94%	>94%	几乎不降
整数加法 (base-10)	bfloat16	>94%	>94%	几乎不降
迭代加法 (base-2, 3数)	float32	~100%	~100%	稳定
迭代加法 (base-2, 3数)	bfloat16	~100%	显著下降	长度7-10急剧恶化
整数乘法 (base-2)	float32	~100%	逐渐下降	长位仍保持较高
整数乘法 (base-2)	bfloat16	~100%	急剧下降	长度13后近乎归零

LLaMA-3.1-8B 实验¶

任务	设置	短位数	长位数	说明
迭代加法(3数)	bfloat16 原始	~80%	~60%	基线
迭代加法(3数)	int4 量化	~60%	~40%	降约20%
迭代加法(3数)	LoRA (bf16)	~95%	~85%	微调提升大
迭代加法(3数)	QLoRA (int4)	~90%	~70%	低精度微调仍不如bf16原始

关键发现¶

简单加法对精度不敏感——float32 和 bfloat16 表现几乎一致，与理论预测吻合（\(\text{ADD} \in \mathsf{AC}^0\)）
复杂任务精度差距随位数增长急剧扩大——在 base-2 乘法中，bfloat16 在长度 13 后准确率暴跌，而 float32 仍保持合理水平
低精度微调无法弥补精度缺陷——QLoRA (int4) 微调后的 LLaMA 在某些任务上甚至不如 bfloat16 原始模型
更深网络可部分缓解但不能根治——5 层比 3 层好一些，但 bfloat16 仍在长位数崩溃

亮点与洞察¶

理论与实验的精确对应：三个不可能性/可能性定理分别对应三类任务的实验现象——加法两种精度都行，迭代加法/乘法低精度崩溃。这种理论预测→实验验证的完美对应很有说服力
实用指导意义：直接回答了"量化对数学推理影响多大"——简单计算可以量化，涉及进位传播的复杂计算（如多数相加、乘法）不可量化。对 LLM 部署策略有直接指导
电路复杂度框架的价值：\(\mathsf{AC}^0\) vs \(\mathsf{TC}^0\) 分离提供了理解 Transformer 表达能力的清晰框架，比经验性的"量化掉点"分析更有深度

局限性 / 可改进方向¶

仅覆盖三类基本算术：未考虑除法、模运算、浮点运算等更复杂操作
仅分析精度一个因素：实际数学推理还受 CoT 长度、上下文窗口、attention pattern 等影响
理论与实践精度定义有差距：理论上的"常数精度"(c bit) vs 实际的 bfloat16 (16bit) 之间有 gap——bfloat16 并非严格 \(\mathsf{AC}^0\)，但指数位有限确实限制了中间计算范围
未讨论混合精度：实际部署中常用不同层不同精度的策略，是否存在"关键层保持高精度"的选择性量化方案？

评分¶

新颖性: ⭐⭐⭐⭐ 理论结论新颖但技术路线（电路复杂度分析 Transformer）有前人铺垫
实验充分度: ⭐⭐⭐⭐⭐ 从头训练 + LLaMA 大模型 + 多任务多精度全面验证
写作质量: ⭐⭐⭐⭐⭐ 理论严谨 + 实验丰富 + 实践指导清晰，40页完整附录
价值: ⭐⭐⭐⭐ 理论有深度、实践有指导，但数学推理的关键瓶颈可能不在精度
价值: 待评