跳转至

GLGENN: 基于Clifford几何代数的轻参数等变神经网络架构

会议: ICML2025
arXiv: 2506.09625
代码: GitHub
领域: 等变神经网络 / 几何深度学习
关键词: 等变神经网络, Clifford代数, 几何代数, Lipschitz群, 伪正交群, 权重共享, 参数高效

一句话总结

提出广义Lipschitz群等变神经网络(GLGENN),利用几何代数中grade involution和reversion定义的四个基本子空间实现权重共享,在保持伪正交群等变性的同时大幅减少可训练参数(约为CGENN的1/2至1/3),在多个基准任务上匹配或超越CGENN。

研究背景与动机

等变神经网络通过将对称性(旋转、反射等)显式嵌入网络架构,在分子性质预测、粒子物理、蛋白质结构分析、机器人规划等领域取得了广泛应用。基于Clifford几何代数(GA)的等变网络(如CGENN)是近年来的重要方向,通过Lipschitz群和twisted adjoint表示实现对伪正交变换的等变性。

然而,现有GA等变网络面临过参数化问题: - CGENN按固定grade \(k=0,1,...,n\) 将多向量分解为 \(n+1\) 个子空间,每个子空间独立参数化 - 当维度 \(n\) 增大时参数量快速增长 - 小数据集场景(自然科学中常见)容易过拟合 - 训练时间随参数量增加而延长

本文的核心洞察:grade involution (\(\hat{\cdot}\)) 和 reversion (\(\tilde{\cdot}\)) 是GA中最基本的两个对合运算,它们将GA自然地划分为4个基本子空间 \(C\ell^{\bar{k}}\)\(k=0,1,2,3\)),而非 \(n+1\) 个grade子空间。基于这种更粗粒度的分解,可以设计参数更少但仍保持等变性的网络。

方法详解

核心数学框架:广义Lipschitz群

几何代数基础:给定向量空间 \(V=\mathbb{R}^{p,q,r}\),其Clifford几何代数 \(C\ell_{p,q,r}\) 中的元素(多向量)可按grade分解:\(U = \langle U \rangle_0 + \langle U \rangle_1 + \cdots + \langle U \rangle_n\)

四个基本子空间:由grade involution和reversion的符号模式定义:

\[C\ell^{\bar{k}}_{p,q,r} := C\ell^k \oplus C\ell^{k+4} \oplus C\ell^{k+8} \oplus \cdots, \quad k=0,1,2,3\]
子空间 grade involution \(\hat{\cdot}\) reversion \(\tilde{\cdot}\)
\(C\ell^{\bar{0}}\) \(+\) \(+\)
\(C\ell^{\bar{1}}\) \(-\) \(+\)
\(C\ell^{\bar{2}}\) \(+\) \(-\)
\(C\ell^{\bar{3}}\) \(-\) \(-\)

广义Lipschitz群 \(\tilde{\Gamma}^{\bar{1}}_{p,q,r}\):保持4个子空间 \(C\ell^{\bar{k}}\) 在twisted adjoint表示下不变的可逆元素集合。关键定理:

  • 定理3.1:普通Lipschitz群 \(\tilde{\Gamma}^1 \subseteq \tilde{\Gamma}^{\bar{1}}\),即广义群包含普通群
  • 定理3.4\(\tilde{\Gamma}^{\bar{1}}\)-等变映射自动是伪正交群 \(O(V,\mathfrak{q})\)-等变的

GLGENN层设计

1. \(C\ell^{\bar{k}}\)-线性层(替代CGENN的 \(C\ell^k\)-线性层):

\[\langle y_{c_{out}} \rangle_{\bar{k}} := \sum_{c_{in}=0}^{l} \phi_{c_{out} c_{in} \bar{k}} \langle x_{c_{in}} \rangle_{\bar{k}}\]

参数量:\(4lm\)\(l\)个输入通道,\(m\)个输出通道),CGENN需要 \((n+1)lm\) 个参数。

2. \(C\ell^{\bar{k}}\)-几何积层(二阶交互项):

\[P(x_1, x_2)^{\bar{k}} := \sum_{i=0}^{3} \sum_{j=0}^{3} \phi_{ijk} \langle \langle x_1 \rangle_{\bar{i}} \langle x_2 \rangle_{\bar{j}} \rangle_{\bar{k}}\]

参数量:\(4l^2 + 4^3 l\),而CGENN需要 \((n+1)l^2 + (n+1)^3 l\)

3. \(C\ell^{\bar{k}}\)-归一化层

\[\langle x \rangle_{\bar{k}} \mapsto \frac{\langle x \rangle_{\bar{k}}}{\sigma(\phi_{\bar{k}})(\langle \widetilde{\langle x \rangle_{\bar{k}}} \langle x \rangle_{\bar{k}} \rangle_0 - 1) + 1}\]

参数量:\(4l\)(CGENN需要 \((n+1)l\))。

参数节省的关键:CGENN将多向量投影到 \(n+1\) 个grade子空间独立处理,GLGENN仅投影到4个基本子空间。当 \(n \geq 4\) 时参数量显著减少(步长从1变为4)。

实验关键数据

O(5,0)-回归任务

估计函数 \(\sin(\|x_1\|) - \|x_2\|^3/2 + \frac{x_1^T x_2}{\|x_1\|\|x_2\|}\)\(x_1,x_2 \in \mathbb{R}^{5,0}\)

模型 30样本 300样本 3000样本 30000样本
GLGENN 0.1055 0.0020 0.0031 0.0011
CGENN 0.0791 0.0089 0.0012 0.0003
EMLP-O(5) 0.152 0.0344 0.0310 0.0273
MLP 28.10 0.248 0.0623 0.0622
  • GLGENN GA参数 ≈0.6K vs CGENN ≈1.8K(减少约67%
  • 小数据集(30-300样本)GLGENN表现更优,说明抗过拟合能力更强

O(5,0)-凸包体积估计(16点)

训练样本数 GLGENN CGENN
\(2^8\) 16.94 18.71
\(2^{12}\) 6.2 6.1
\(2^{16}\) 3.04 2.52
  • GLGENN参数 24.1K vs CGENN 58.8K(减少59%
  • 小样本GLGENN更优;大样本CGENN略好但差距不大

O(5,0)-凸包体积估计(256/512点,高难度)

K 训练样本 GLGENN CGENN
256 \(2^{10}\) 2908 5177
256 \(2^{14}\) 2918 3385
512 \(2^{10}\) 8539 14728
512 \(2^{14}\) 4872 7212
  • 高维度大规模场景GLGENN全面超越CGENN
  • 参数量 GLGENN 791K vs CGENN 1.72M(K=256),减少54%

N-Body实验

5个带电粒子在 \(\mathbb{R}^{5,0}\) 中的运动预测,GLGENN参数约为CGENN的一半,性能相当。

亮点与洞察

  1. 优雅的数学动机:利用GA中grade involution和reversion的基本代数结构,自然地将参数从 \(n+1\) 维分解压缩到4维分解,理论上严格保证等变性
  2. 参数效率显著:在所有实验中参数减少50%-67%,训练时间相应减少
  3. 小数据优势:参数少→正则化效果→在小训练集上表现更好,这对自然科学应用非常重要
  4. 通用性:适用于任意签名 \((p,q,r)\) 的伪正交群,包括退化情形
  5. 即插即用:可直接替换CGENN的对应层,也可与MLP等标准网络组合

局限与展望

  1. 大数据集性能:参数减少带来正则化效果,但在大数据充足时可能限制模型容量,CGENN在大样本下有时略胜
  2. 实验范围有限:目前仅在非退化GA(\(C\ell_{p,q}\))上实验,退化情形 \(C\ell_{p,q,r}\) 的实验待开展
  3. 缺少真实世界应用:实验以合成基准为主,未验证分子建模、蛋白质折叠等实际任务
  4. 非线性受限:几何积层提供非线性交互,但标准激活函数只能作用于标量子空间,可能限制表达能力
  5. 低维等价性:当 \(n \leq 3\)\(C\ell^{\bar{k}} = C\ell^k\),GLGENN退化为CGENN,无参数优势

相关工作与启发

  • CGENN (Ruhe et al., 2023):GLGENN的直接基线,按grade子空间参数化
  • GATr (Brehmer et al., 2023):将GA融入Transformer,计算成本更高
  • EMLP (Finzi et al., 2021):基于不可约表示的等变MLP
  • 启发:权重共享策略可推广到其他代数结构的等变网络设计

评分

  • 新颖性: ⭐⭐⭐⭐ (广义Lipschitz群是新的数学贡献,权重共享策略新颖)
  • 实验充分度: ⭐⭐⭐ (基准实验覆盖较好但缺少真实应用)
  • 写作质量: ⭐⭐⭐⭐ (理论推导严谨,结构清晰)
  • 价值: ⭐⭐⭐⭐ (为等变网络的参数效率提供了坚实理论基础和实用方案)

相关论文