Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks¶

会议: ACL 2025
arXiv: 2407.17963
代码: https://github.com/xingchengxu/ArithmeticLLM
领域: 文本生成
关键词: Transformer泛化, 算术推理, 长度泛化, 位置编码, 理论分析

一句话总结¶

建立首个统一理论框架来理解 Transformer 在算术任务（加法/乘法/模运算）上的泛化行为——从任务性质（平移不变性）和位置编码类型（APE/RPE）的交互出发，解释了之前困扰领域的多个泛化谜题（如加法能泛化但乘法不能，模100能泛化但模101不能），实验验证了理论预测。

领域现状：Transformer 在许多任务上表现出色但其泛化能力——尤其是长度泛化（能否处理比训练时更长的输入）——仍未被充分理解。算术任务因其可控性成为研究泛化的理想探针。
现有痛点：先前研究发现了一系列反直觉的泛化现象但无统一解释——(a) 用 RPE 训练加法能泛化到更长位数，但乘法不行；(b) 模100运算能完美泛化到任意长输入，但模101就失败；(c) 这些差异的根本原因是什么？之前的工作只修改模型组件（位置编码/注意力），没有分析任务本身的性质。
核心矛盾：不同算术任务看起来很相似（都是数字运算），但泛化行为截然不同——问题不在模型而在于任务性质与模型假设的匹配程度。
本文要解决什么？ 建立理论框架，从任务性质出发统一解释 Transformer 在各种算术任务上的泛化行为差异。
切入角度：关注"平移不变性"——加法的逐位计算在数位平移下结果不变（1234+5678 和 12340+56780 的逐位运算相同），这与 RPE 的相对位置编码天然匹配。乘法不具有此性质，模运算取决于模数是否与基数（10）对齐。
核心idea一句话：任务的平移不变性 × 位置编码的匹配性 = 泛化行为。

理论分析框架整合三个要素：(1) 自回归 Transformer 的通用逼近能力；(2) 任务特定的数学性质分析（平移不变性、基数对齐）；(3) 训练数据分布对泛化的影响。假设模型在训练数据上收敛后，泛化行为由任务性质决定。

平移不变性分析:
做什么：定义和验证不同算术任务的平移不变性
核心思路：如果将两个操作数同时在数位上平移 \(k\) 位（高位补零或低位补零），运算结果是否保持相同的逐位关系？
加法：平移不变（每位的进位计算只依赖相对位置）→ 与 RPE 匹配 → 泛化成功
乘法：非平移不变（交叉项打破了局部性）→ RPE 也无法泛化
设计动机：平移不变性是简洁的数学判据，直接决定了 RPE 能否将训练域的知识迁移到更长的输入
基数对齐分析（模运算）:
做什么：解释模100和模101的泛化差异
核心思路：模100 = \(10^2\)，与十进制基数对齐——\(11234 \bmod 100 = 1234 \bmod 100 = 34\)，高位数字可以直接丢弃不影响结果。但模101不整除 \(10^n\)——\(11234 \bmod 101 \neq 1234 \bmod 101\)，高位信息不可忽略
设计动机：这解释了之前文献中"模100能泛化但模101不能"的神秘现象
上行/下行 OOD 泛化:
做什么：区分向更短和向更长域的泛化
核心思路：训练 \(n\) 位运算，下行泛化到少于 \(n\) 位（如 \(n=4\) 训练但测试 3 位加法），上行泛化到多于 \(n\) 位。理论分析表明下行泛化在 APE/RPE 下都较容易，上行泛化则取决于任务性质
设计动机：之前文献不区分两种泛化方向，导致结论混乱

分析	结论
模型规模影响	更大模型在训练域收敛更好但泛化行为不变——泛化由任务决定
数据集规模影响	足够覆盖训练域即可，增加数量不改善泛化
训练数据分布	如果排除的数据不影响 ground truth 的支撑集则可泛化
准确率理论公式	对模运算推导出泛化准确率的封闭公式（基于信息损失量）

"问题不在模型而在任务"的核心洞察颠覆了之前的研究范式——之前大家试图修改模型来改善泛化，但本文证明泛化行为是由任务数学性质决定的。这是一个认识论层面的贡献。
平移不变性作为泛化的充要条件非常优雅——一个简单的数学性质就统一解释了所有之前的泛化谜题。
基数对齐解释了模运算的"接近模数却表现迥异"的神秘现象——100 vs 101 的差异不是偶然而是 \(10^2\) 整除性的本质区别。
将下行和上行 OOD 泛化作为两个独立概念——这种区分使分析更清晰也更有实践指导意义。
对 LLM 的训练数据设计有深远启示——如果我们知道任务的数学性质，就能精确预测模型能否泛化，从而设计最小必要的训练集。