GLGENN: 基于Clifford几何代数的轻参数等变神经网络架构¶
会议: ICML2025
arXiv: 2506.09625
代码: GitHub
领域: 等变神经网络 / 几何深度学习
关键词: 等变神经网络, Clifford代数, 几何代数, Lipschitz群, 伪正交群, 权重共享, 参数高效
一句话总结¶
提出广义Lipschitz群等变神经网络(GLGENN),利用几何代数中grade involution和reversion定义的四个基本子空间实现权重共享,在保持伪正交群等变性的同时大幅减少可训练参数(约为CGENN的1/2至1/3),在多个基准任务上匹配或超越CGENN。
研究背景与动机¶
等变神经网络通过将对称性(旋转、反射等)显式嵌入网络架构,在分子性质预测、粒子物理、蛋白质结构分析、机器人规划等领域取得了广泛应用。基于Clifford几何代数(GA)的等变网络(如CGENN)是近年来的重要方向,通过Lipschitz群和twisted adjoint表示实现对伪正交变换的等变性。
然而,现有GA等变网络面临过参数化问题: - CGENN按固定grade \(k=0,1,...,n\) 将多向量分解为 \(n+1\) 个子空间,每个子空间独立参数化 - 当维度 \(n\) 增大时参数量快速增长 - 小数据集场景(自然科学中常见)容易过拟合 - 训练时间随参数量增加而延长
本文的核心洞察:grade involution (\(\hat{\cdot}\)) 和 reversion (\(\tilde{\cdot}\)) 是GA中最基本的两个对合运算,它们将GA自然地划分为4个基本子空间 \(C\ell^{\bar{k}}\)(\(k=0,1,2,3\)),而非 \(n+1\) 个grade子空间。基于这种更粗粒度的分解,可以设计参数更少但仍保持等变性的网络。
方法详解¶
核心数学框架:广义Lipschitz群¶
几何代数基础:给定向量空间 \(V=\mathbb{R}^{p,q,r}\),其Clifford几何代数 \(C\ell_{p,q,r}\) 中的元素(多向量)可按grade分解:\(U = \langle U \rangle_0 + \langle U \rangle_1 + \cdots + \langle U \rangle_n\)。
四个基本子空间:由grade involution和reversion的符号模式定义:
| 子空间 | grade involution \(\hat{\cdot}\) | reversion \(\tilde{\cdot}\) |
|---|---|---|
| \(C\ell^{\bar{0}}\) | \(+\) | \(+\) |
| \(C\ell^{\bar{1}}\) | \(-\) | \(+\) |
| \(C\ell^{\bar{2}}\) | \(+\) | \(-\) |
| \(C\ell^{\bar{3}}\) | \(-\) | \(-\) |
广义Lipschitz群 \(\tilde{\Gamma}^{\bar{1}}_{p,q,r}\):保持4个子空间 \(C\ell^{\bar{k}}\) 在twisted adjoint表示下不变的可逆元素集合。关键定理:
- 定理3.1:普通Lipschitz群 \(\tilde{\Gamma}^1 \subseteq \tilde{\Gamma}^{\bar{1}}\),即广义群包含普通群
- 定理3.4:\(\tilde{\Gamma}^{\bar{1}}\)-等变映射自动是伪正交群 \(O(V,\mathfrak{q})\)-等变的
GLGENN层设计¶
1. \(C\ell^{\bar{k}}\)-线性层(替代CGENN的 \(C\ell^k\)-线性层):
参数量:\(4lm\)(\(l\)个输入通道,\(m\)个输出通道),CGENN需要 \((n+1)lm\) 个参数。
2. \(C\ell^{\bar{k}}\)-几何积层(二阶交互项):
参数量:\(4l^2 + 4^3 l\),而CGENN需要 \((n+1)l^2 + (n+1)^3 l\)。
3. \(C\ell^{\bar{k}}\)-归一化层:
参数量:\(4l\)(CGENN需要 \((n+1)l\))。
参数节省的关键:CGENN将多向量投影到 \(n+1\) 个grade子空间独立处理,GLGENN仅投影到4个基本子空间。当 \(n \geq 4\) 时参数量显著减少(步长从1变为4)。
实验关键数据¶
O(5,0)-回归任务¶
估计函数 \(\sin(\|x_1\|) - \|x_2\|^3/2 + \frac{x_1^T x_2}{\|x_1\|\|x_2\|}\),\(x_1,x_2 \in \mathbb{R}^{5,0}\):
| 模型 | 30样本 | 300样本 | 3000样本 | 30000样本 |
|---|---|---|---|---|
| GLGENN | 0.1055 | 0.0020 | 0.0031 | 0.0011 |
| CGENN | 0.0791 | 0.0089 | 0.0012 | 0.0003 |
| EMLP-O(5) | 0.152 | 0.0344 | 0.0310 | 0.0273 |
| MLP | 28.10 | 0.248 | 0.0623 | 0.0622 |
- GLGENN GA参数 ≈0.6K vs CGENN ≈1.8K(减少约67%)
- 小数据集(30-300样本)GLGENN表现更优,说明抗过拟合能力更强
O(5,0)-凸包体积估计(16点)¶
| 训练样本数 | GLGENN | CGENN |
|---|---|---|
| \(2^8\) | 16.94 | 18.71 |
| \(2^{12}\) | 6.2 | 6.1 |
| \(2^{16}\) | 3.04 | 2.52 |
- GLGENN参数 24.1K vs CGENN 58.8K(减少59%)
- 小样本GLGENN更优;大样本CGENN略好但差距不大
O(5,0)-凸包体积估计(256/512点,高难度)¶
| K | 训练样本 | GLGENN | CGENN |
|---|---|---|---|
| 256 | \(2^{10}\) | 2908 | 5177 |
| 256 | \(2^{14}\) | 2918 | 3385 |
| 512 | \(2^{10}\) | 8539 | 14728 |
| 512 | \(2^{14}\) | 4872 | 7212 |
- 高维度大规模场景GLGENN全面超越CGENN
- 参数量 GLGENN 791K vs CGENN 1.72M(K=256),减少54%
N-Body实验¶
5个带电粒子在 \(\mathbb{R}^{5,0}\) 中的运动预测,GLGENN参数约为CGENN的一半,性能相当。
亮点与洞察¶
- 优雅的数学动机:利用GA中grade involution和reversion的基本代数结构,自然地将参数从 \(n+1\) 维分解压缩到4维分解,理论上严格保证等变性
- 参数效率显著:在所有实验中参数减少50%-67%,训练时间相应减少
- 小数据优势:参数少→正则化效果→在小训练集上表现更好,这对自然科学应用非常重要
- 通用性:适用于任意签名 \((p,q,r)\) 的伪正交群,包括退化情形
- 即插即用:可直接替换CGENN的对应层,也可与MLP等标准网络组合
局限与展望¶
- 大数据集性能:参数减少带来正则化效果,但在大数据充足时可能限制模型容量,CGENN在大样本下有时略胜
- 实验范围有限:目前仅在非退化GA(\(C\ell_{p,q}\))上实验,退化情形 \(C\ell_{p,q,r}\) 的实验待开展
- 缺少真实世界应用:实验以合成基准为主,未验证分子建模、蛋白质折叠等实际任务
- 非线性受限:几何积层提供非线性交互,但标准激活函数只能作用于标量子空间,可能限制表达能力
- 低维等价性:当 \(n \leq 3\) 时 \(C\ell^{\bar{k}} = C\ell^k\),GLGENN退化为CGENN,无参数优势
相关工作与启发¶
- CGENN (Ruhe et al., 2023):GLGENN的直接基线,按grade子空间参数化
- GATr (Brehmer et al., 2023):将GA融入Transformer,计算成本更高
- EMLP (Finzi et al., 2021):基于不可约表示的等变MLP
- 启发:权重共享策略可推广到其他代数结构的等变网络设计
评分¶
- 新颖性: ⭐⭐⭐⭐ (广义Lipschitz群是新的数学贡献,权重共享策略新颖)
- 实验充分度: ⭐⭐⭐ (基准实验覆盖较好但缺少真实应用)
- 写作质量: ⭐⭐⭐⭐ (理论推导严谨,结构清晰)
- 价值: ⭐⭐⭐⭐ (为等变网络的参数效率提供了坚实理论基础和实用方案)
相关论文¶
- [ICML 2025] Prediction-Powered Adaptive Shrinkage Estimation
- [ICML 2025] Efficient Optimization with Orthogonality Constraint: a Randomized Riemannian Submanifold Method
- [ICML 2025] Positional Attention: Expressivity and Learnability of Algorithmic Computation
- [ICML 2025] Optimal Auction Design in the Joint Advertising
- [ICML 2025] Near Optimal Best Arm Identification for Clustered Bandits