Composing Global Solutions to Reasoning Tasks via Algebraic Objects in Neural Nets¶

会议: NeurIPS 2025
arXiv: 2410.01779
代码: facebookresearch/luckmatters
领域: optimization
关键词: 代数结构, 半环, 环同态, 模加法, Fourier 基, 全局解构造, sum potentials, 两层网络, grokking, 推理任务

一句话总结¶

揭示两层二次激活网络在 Abelian 群推理任务上训练时权重空间具有半环代数结构，提出 CoGS 框架通过环运算将部分解组合为全局最优解，约 95% 梯度下降解与理论构造精确匹配。

研究背景与动机¶

LLM 推理能力不稳定：大语言模型在基础推理任务上常犯令人意外的错误（如 reversal curse），推理能力的本质仍是开放问题
模加法是理解推理的经典探针：预测 \(a+b \mod d\) 结构简单但展现出 grokking 等复杂学习行为，是研究推理机制的理想切入点
已知 Fourier 基现象缺乏统一框架：前人发现训练后的网络使用 Fourier 基表示模加法，也手工构造过解析解，但缺少系统性理论框架来解释和推广这些结果
现有构造依赖无限宽度假设：Gromov (2023) 的解析构造需假设网络无限宽，与实际有限宽度训练不符
梯度下降为何偏好特定解：训练为何收敛到低阶 Fourier 解而非完美记忆解？已有工作未给出理论解释
权重空间内部结构未被探索：几何深度学习利用数据对称性，但从未打开黑盒分析训练过程中权重空间本身的代数结构

方法详解¶

框架总览：CoGS (Composing Global Solutions)¶

针对两层二次激活 (\(\sigma(x)=x^2\)) 网络在 Abelian 群乘法预测任务上的 \(L_2\) 损失优化问题，CoGS 发现：(1) 不同宽度网络的权重空间 \(\mathcal{Z}\) 具有半环代数结构；(2) 损失函数由 sum potentials (SP) 构成，SP 是环同态映射；(3) 利用环同态性质，从仅满足部分损失约束的"部分解"出发，通过环加法和环乘法代数组合出全局最优解。

关键设计 1：权重空间的半环结构¶

做什么：在不同宽度 \(q\) 的两层网络权重集合 \(\mathcal{Z} = \bigcup_{q \geq 0} \mathcal{Z}_q\) 上定义加法和乘法运算
核心思路：加法定义为隐藏节点维度的拼接 (concatenation)，乘法定义为 Khatri-Rao 积（Kronecker 积沿隐藏维），两者满足交换律和分配律，构成交换半环 \(\langle \mathcal{Z}, +, * \rangle\)
设计动机：将不同宽度的网络统一在同一代数框架中，是后续所有组合构造的基石；传统工作只分析固定宽度网络，错失了跨宽度的丰富结构

关键设计 2：Sum Potentials 作为环同态¶

做什么：证明 \(L_2\) 损失中的核心项——sum potentials \(r(\mathbf{z}) = \sum_j \prod_{p,k} z_{pkj}\)——是从权重半环 \(\mathcal{Z}\) 到复数域 \(\mathbb{C}\) 的环同态映射
核心思路：环同态满足 \(r(\mathbf{z}_1 + \mathbf{z}_2) = r(\mathbf{z}_1) + r(\mathbf{z}_2)\) 和 \(r(\mathbf{z}_1 * \mathbf{z}_2) = r(\mathbf{z}_1) \cdot r(\mathbf{z}_2)\)。这意味着若部分解 \(\mathbf{z}_1\) 使某些 SP 为 0、\(\mathbf{z}_2\) 使另一些 SP 为 0，则环乘 \(\mathbf{z}_1 * \mathbf{z}_2\) 可使两者的并集为 0
设计动机：将高度非线性的全局优化问题转化为在代数结构上的组合问题，避免直接求解复杂非凸优化

关键设计 3：多项式构造低阶全局解¶

做什么：在半环 \(\mathcal{Z}\) 上构造多项式 \(\mathbf{z} = \mathbf{u}^L + \mathbf{c}_1 * \mathbf{u}^{L-1} + \cdots + \mathbf{c}_L\)，从单频生成元 \(\mathbf{u}\) 系统产生部分解，再组合为全局解
核心思路：选取对称性好的 order-1 生成元（如使用 3 次或 4 次单位根 \(\omega_3, \omega_4\)），使其在 SP 上产生大量重复值（非 1），从而以低次多项式覆盖更多约束。最终构造出 order-6 Fourier 解 \(\mathbf{z}_{F6}\)（每频率 6 个隐藏节点）和 order-4/6 混合解 \(\mathbf{z}_{F4/6}\)（总阶更低）
设计动机：追求低阶解（少隐藏节点），因为梯度动力学在 weight decay 下天然偏好低阶——代数连接的解在拓扑上也连通（Theorem 5），高阶的完美记忆解 (\(d^2\) 阶) 不被动力学青睐

关键设计 4：梯度动力学与过参数化分析¶

做什么：分析为何训练偏好 Fourier 解而非完美记忆解，以及过参数化的作用
核心思路：(1) Theorem 5 证明若全局解 \(\mathbf{z} = \mathbf{y} * \mathbf{z}'\)，则 \(\mathbf{z}\) 与更低阶的 \(\mathbf{z}'\) 之间存在零损失路径，weight decay 自然推向低阶端；(2) Theorem 6 证明宽度趋于无穷时 SP 的动态解耦，解释过参数化改善训练的原因
设计动机：弥补静态解结构分析与实际训练动态之间的鸿沟，为 grokking 等现象提供部分解释

损失函数与训练¶

损失：投影 \(L_2\) 损失 + 二次激活函数，损失可解析分解为各频率 \(k\) 上的 sum potentials 函数（Theorem 1）
训练：Adam 优化器，学习率 0.01，训练 10000 epochs，配合不同强度的 weight decay 正则化
数据：Abelian 群乘法全量合成数据，90%/10% 训练/测试划分

实验关键数据¶

表 1：梯度下降解的阶分布（\(q=512\), weight decay \(5 \times 10^{-5}\)）¶

群大小 \(d\)	不可分解 %	Order-4 (\(\mathbf{z}_{\nu=i} * \mathbf{z}_\xi\))	Order-6 (\(\mathbf{z}_\nu * \mathbf{z}_{syn}\))	其他 %
23	0.0%	47.07%	39.80%	1.82%
71	0.0%	72.57%	21.14%	2.29%
127	1.50%	82.96%	14.13%	0.66%

→ \(d\) 越大 order-4 解占比越高，与 \(\mathbf{z}_{F4/6}\) 混合解理论一致（仅需 1 个 order-6 频率即可构成全局解）

表 2：理论匹配精度¶

指标	结果
可分解率	~95%（分解误差 ~0.04，解范数量级为 1）
CoGS 结构预测成功率	~98%（剩余 ~2% 因训练不充分）
\(d=127\) 时 order-6 频率数	实测 ~1.26，理论预期 1

Weight decay 越大，解分布越向低阶集中（直至模型崩溃），验证 Theorem 5 的"Occam's Razor"效应
移除 \(R_*\) 约束后 order-3 解即可满足，验证了部分解组合的层次结构

亮点¶

首次发现训练中的代数结构：揭示权重空间的半环结构和损失中的环同态性质，是全新的分析视角
理论与实验高度吻合：约 95% 的梯度下降解可精确匹配理论构造，而非仅统计近似
不依赖无限宽度假设：比 Gromov (2023) 更简洁实用，order-6 Fourier 解仅需有限宽度
解释了多个实践现象：weight decay 偏好简单解、过参数化有利、完美记忆不被梯度偏好

局限性¶

仅限二次激活函数：对 SiLU 等实用激活需 Taylor 展开产生高阶 SP，框架推广尚需验证
仅处理 Abelian 群：非交换群（如置换群）的推理任务未涉及
限于两层网络：深层网络、Transformer 架构的推广路径不明
合成任务评估：仅在模加法等合成基准上验证，与真实推理任务的关联仍需探索
未完全解释 grokking：动力学分析为粗粒度特征，从记忆到泛化的相变过程未被完整刻画

与相关工作的对比¶

Gromov (2023)：手工构造 Fourier 解但依赖无限宽度近似 → CoGS 无需该假设且更系统
Morwani et al. (2023)：用 max-margin + \(L_{2,3}\) 范数分析代数任务 → CoGS 用标准 \(L_2\) 损失并发现半环结构
Nanda et al. (2023)：通过机械可解释性提取电路 → CoGS 从代数角度解释电路为何呈现 Fourier 结构
几何深度学习 (Bronstein et al., 2021)：在架构中引入对称性 → CoGS 发现训练过程中权重空间自发涌现的代数结构
Li et al. (2024), Liu et al. (2022)：构造 Transformer 权重实现自动机 → 未验证构造与梯度下降解一致

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次揭示训练中权重空间的半环代数结构，开创全新分析范式
实验充分度: ⭐⭐⭐⭐ — 多种 \(d\) 值下 95% 精确匹配，但仅限合成模加法任务
写作质量: ⭐⭐⭐⭐ — 理论推导严谨清晰，但代数记号密集、门槛较高
价值: ⭐⭐⭐⭐ — 为理解网络推理能力提供全新代数视角，未来可能影响训练算法设计