ICML2025 等变神经网络 Clifford代数几何代数 Lipschitz群伪正交群权重共享参数高效

GLGENN: 基于Clifford几何代数的轻参数等变神经网络架构¶

会议: ICML2025
arXiv: 2506.09625
代码: GitHub
领域: 等变神经网络 / 几何深度学习
关键词: 等变神经网络, Clifford代数, 几何代数, Lipschitz群, 伪正交群, 权重共享, 参数高效

一句话总结¶

提出广义Lipschitz群等变神经网络(GLGENN)，利用几何代数中grade involution和reversion定义的四个基本子空间实现权重共享，在保持伪正交群等变性的同时大幅减少可训练参数（约为CGENN的1/2至1/3），在多个基准任务上匹配或超越CGENN。

研究背景与动机¶

等变神经网络通过将对称性（旋转、反射等）显式嵌入网络架构，在分子性质预测、粒子物理、蛋白质结构分析、机器人规划等领域取得了广泛应用。基于Clifford几何代数(GA)的等变网络（如CGENN）是近年来的重要方向，通过Lipschitz群和twisted adjoint表示实现对伪正交变换的等变性。

然而，现有GA等变网络面临过参数化问题： - CGENN按固定grade \(k=0,1,...,n\) 将多向量分解为 \(n+1\) 个子空间，每个子空间独立参数化 - 当维度 \(n\) 增大时参数量快速增长 - 小数据集场景（自然科学中常见）容易过拟合 - 训练时间随参数量增加而延长

本文的核心洞察：grade involution (\(\hat{\cdot}\)) 和 reversion (\(\tilde{\cdot}\)) 是GA中最基本的两个对合运算，它们将GA自然地划分为4个基本子空间 \(C\ell^{\bar{k}}\)（\(k=0,1,2,3\)），而非 \(n+1\) 个grade子空间。基于这种更粗粒度的分解，可以设计参数更少但仍保持等变性的网络。

方法详解¶

核心数学框架：广义Lipschitz群¶

几何代数基础：给定向量空间 \(V=\mathbb{R}^{p,q,r}\)，其Clifford几何代数 \(C\ell_{p,q,r}\) 中的元素（多向量）可按grade分解：\(U = \langle U \rangle_0 + \langle U \rangle_1 + \cdots + \langle U \rangle_n\)。

四个基本子空间：由grade involution和reversion的符号模式定义：

\[C\ell^{\bar{k}}_{p,q,r} := C\ell^k \oplus C\ell^{k+4} \oplus C\ell^{k+8} \oplus \cdots, \quad k=0,1,2,3\]

子空间	grade involution \(\hat{\cdot}\)	reversion \(\tilde{\cdot}\)
\(C\ell^{\bar{0}}\)	\(+\)	\(+\)
\(C\ell^{\bar{1}}\)	\(-\)	\(+\)
\(C\ell^{\bar{2}}\)	\(+\)	\(-\)
\(C\ell^{\bar{3}}\)	\(-\)	\(-\)

广义Lipschitz群 \(\tilde{\Gamma}^{\bar{1}}_{p,q,r}\)：保持4个子空间 \(C\ell^{\bar{k}}\) 在twisted adjoint表示下不变的可逆元素集合。关键定理：

定理3.1：普通Lipschitz群 \(\tilde{\Gamma}^1 \subseteq \tilde{\Gamma}^{\bar{1}}\)，即广义群包含普通群
定理3.4：\(\tilde{\Gamma}^{\bar{1}}\)-等变映射自动是伪正交群 \(O(V,\mathfrak{q})\)-等变的

GLGENN层设计¶

1. \(C\ell^{\bar{k}}\)-线性层（替代CGENN的 \(C\ell^k\)-线性层）：

\[\langle y_{c_{out}} \rangle_{\bar{k}} := \sum_{c_{in}=0}^{l} \phi_{c_{out} c_{in} \bar{k}} \langle x_{c_{in}} \rangle_{\bar{k}}\]

参数量：\(4lm\)（\(l\)个输入通道，\(m\)个输出通道），CGENN需要 \((n+1)lm\) 个参数。

2. \(C\ell^{\bar{k}}\)-几何积层（二阶交互项）：

\[P(x_1, x_2)^{\bar{k}} := \sum_{i=0}^{3} \sum_{j=0}^{3} \phi_{ijk} \langle \langle x_1 \rangle_{\bar{i}} \langle x_2 \rangle_{\bar{j}} \rangle_{\bar{k}}\]

参数量：\(4l^2 + 4^3 l\)，而CGENN需要 \((n+1)l^2 + (n+1)^3 l\)。

3. \(C\ell^{\bar{k}}\)-归一化层：

\[\langle x \rangle_{\bar{k}} \mapsto \frac{\langle x \rangle_{\bar{k}}}{\sigma(\phi_{\bar{k}})(\langle \widetilde{\langle x \rangle_{\bar{k}}} \langle x \rangle_{\bar{k}} \rangle_0 - 1) + 1}\]

参数量：\(4l\)（CGENN需要 \((n+1)l\)）。

参数节省的关键：CGENN将多向量投影到 \(n+1\) 个grade子空间独立处理，GLGENN仅投影到4个基本子空间。当 \(n \geq 4\) 时参数量显著减少（步长从1变为4）。

实验关键数据¶

O(5,0)-回归任务¶

估计函数 \(\sin(\|x_1\|) - \|x_2\|^3/2 + \frac{x_1^T x_2}{\|x_1\|\|x_2\|}\)，\(x_1,x_2 \in \mathbb{R}^{5,0}\)：

模型	30样本	300样本	3000样本	30000样本
GLGENN	0.1055	0.0020	0.0031	0.0011
CGENN	0.0791	0.0089	0.0012	0.0003
EMLP-O(5)	0.152	0.0344	0.0310	0.0273
MLP	28.10	0.248	0.0623	0.0622

GLGENN GA参数 ≈0.6K vs CGENN ≈1.8K（减少约67%）
小数据集（30-300样本）GLGENN表现更优，说明抗过拟合能力更强

O(5,0)-凸包体积估计（16点）¶

训练样本数	GLGENN	CGENN
\(2^8\)	16.94	18.71
\(2^{12}\)	6.2	6.1
\(2^{16}\)	3.04	2.52

GLGENN参数 24.1K vs CGENN 58.8K（减少59%）
小样本GLGENN更优；大样本CGENN略好但差距不大

O(5,0)-凸包体积估计（256/512点，高难度）¶

K	训练样本	GLGENN	CGENN
256	\(2^{10}\)	2908	5177
256	\(2^{14}\)	2918	3385
512	\(2^{10}\)	8539	14728
512	\(2^{14}\)	4872	7212

高维度大规模场景GLGENN全面超越CGENN
参数量 GLGENN 791K vs CGENN 1.72M（K=256），减少54%

N-Body实验¶

5个带电粒子在 \(\mathbb{R}^{5,0}\) 中的运动预测，GLGENN参数约为CGENN的一半，性能相当。

亮点与洞察¶

优雅的数学动机：利用GA中grade involution和reversion的基本代数结构，自然地将参数从 \(n+1\) 维分解压缩到4维分解，理论上严格保证等变性
参数效率显著：在所有实验中参数减少50%-67%，训练时间相应减少
小数据优势：参数少→正则化效果→在小训练集上表现更好，这对自然科学应用非常重要
通用性：适用于任意签名 \((p,q,r)\) 的伪正交群，包括退化情形
即插即用：可直接替换CGENN的对应层，也可与MLP等标准网络组合

局限与展望¶

大数据集性能：参数减少带来正则化效果，但在大数据充足时可能限制模型容量，CGENN在大样本下有时略胜
实验范围有限：目前仅在非退化GA（\(C\ell_{p,q}\)）上实验，退化情形 \(C\ell_{p,q,r}\) 的实验待开展
缺少真实世界应用：实验以合成基准为主，未验证分子建模、蛋白质折叠等实际任务
非线性受限：几何积层提供非线性交互，但标准激活函数只能作用于标量子空间，可能限制表达能力
低维等价性：当 \(n \leq 3\) 时 \(C\ell^{\bar{k}} = C\ell^k\)，GLGENN退化为CGENN，无参数优势

评分¶

新颖性: ⭐⭐⭐⭐ (广义Lipschitz群是新的数学贡献，权重共享策略新颖)
实验充分度: ⭐⭐⭐ (基准实验覆盖较好但缺少真实应用)
写作质量: ⭐⭐⭐⭐ (理论推导严谨，结构清晰)
价值: ⭐⭐⭐⭐ (为等变网络的参数效率提供了坚实理论基础和实用方案)