Hyperbolic Busemann Neural Networks¶
会议: CVPR 2026 arXiv: 2602.18858 代码: 有 领域: 图学习 关键词: 双曲神经网络, Busemann函数, 双曲分类, 全连接层, 流形学习
一句话总结¶
利用 Busemann 函数将多类逻辑回归(MLR)和全连接层(FC)内蕴地提升到双曲空间,提出 BMLR 和 BFC 两个统一组件,在 Poincaré 球和 Lorentz 模型上同时适用,且在图像分类、基因组序列、节点分类、链接预测四类任务上均优于已有双曲层。
研究背景与动机¶
1. 领域现状¶
双曲空间因其指数级体积增长特性,能低失真地嵌入树状与层次结构数据,近年来在计算机视觉、图学习、多模态学习、推荐系统、基因组学、NLP 等领域取得广泛成功。为支撑双曲深度学习,MLR(多类逻辑回归)和 FC(全连接层)这两个核心组件已被多次推广到 Poincaré 球和 Lorentz 模型。
2. 痛点¶
现有双曲 MLR 和 FC 层存在若干共性问题:
- 过度参数化:Ganea 等人的 Poincaré MLR 每类需额外的流形参数 \(p_k \in \mathbb{P}_K^n\),参数量翻倍
- 批计算效率低:部分方法(如 PBMLR-P)需逐类循环计算,无法高效矩阵化
- 模型特异性:Poincaré FC 仅适用于 Poincaré 模型,Lorentz FC 仅适用于 Lorentz 模型,缺乏统一框架
- 几何失真:Möbius FC 和 Lorentz FC 在切空间或环境 Minkowski 空间做欧式变换后投影,扭曲了内蕴几何
3. 核心矛盾¶
实践需要一个内蕴、高效、统一的双曲 MLR/FC 层,但已有方案要么不内蕴(依赖切空间/环境空间近似)、要么不高效(过度参数化/不支持批处理)、要么不统一(绑定单一模型)。
4. 要解决什么¶
在 Poincaré 和 Lorentz 两大双曲模型上提供统一的、参数紧凑的、批高效的 MLR 和 FC 层,且保留真实的几何距离解释。
5. 切入角度¶
Busemann 函数——双曲空间中内积的内蕴推广。欧式内积 \(\langle v, x \rangle\) 在双曲空间的对应是 Busemann 函数 \(-B^v(x)\);欧式超平面的对应是horophere(极球面)。这对概念在 Poincaré 和 Lorentz 模型上均有解析闭式。
6. 核心 idea¶
用 Busemann 函数直接替换欧式 MLR/FC 中的内积运算,得到 BMLR(Busemann MLR)和 BFC(Busemann FC),一套公式同时覆盖两种双曲模型,且当曲率 \(K \to 0^-\) 时自然退化回欧式对应物。
方法详解¶
整体框架¶
本文提出两个核心组件:
- BMLR:替换网络最后的分类头,将欧式 softmax 逻辑值 \(u_k(x) = \langle a_k, x \rangle + b_k\) 推广为 \(u_k(x) = -\alpha_k B^{v_k}(x) + b_k\)
- BFC:替换网络中间的全连接层,将欧式 FC 的逐元素输出 \(y_k = \langle a_k, x \rangle + b_k\) 推广为通过 Busemann 函数的点到极球面有符号距离方程来隐式定义输出
两者共享相同的数学框架:欧式内积 → Busemann 函数,欧式超平面 → horophere。
关键设计¶
设计一:Busemann MLR(BMLR)¶
做什么:将多类分类的 logit 计算从欧式空间提升到双曲空间。
核心思路:欧式 MLR 的 logit \(u_k(x) = \alpha_k \langle v_k, x \rangle + b_k\) 中,\(\langle v_k, x \rangle\) 是内积。根据 Busemann 函数与内积的对应关系(\(B^v(x) = -\langle x, v \rangle\) 在欧式空间),定义双曲 logit:
其中 \(\alpha_k > 0\),\(v_k \in \mathbb{S}^{n-1}\),\(b_k \in \mathbb{R}\)。在 Poincaré 球上 \(B^v(x) = \frac{1}{\sqrt{-K}} \log \frac{\|v - \sqrt{-K}x\|^2}{1 + K\|x\|^2}\),在 Lorentz 模型上 \(B^v(x) = \frac{1}{\sqrt{-K}} \log(\sqrt{-K}(x_t - \langle x_s, v \rangle))\)。
设计动机: - 参数紧凑:每类仅需 \((\alpha_k, v_k, b_k)\),共 \(C(n+2)\) 参数,无需额外流形值参数 - 几何忠实:logit 等价于点到 horophere 的真实测地距离(非伪距离) - 批高效:所有类的 logit 可通过矩阵乘法一次计算 - 极限正确:\(K \to 0^-\) 时 Poincaré BMLR → \(2\alpha_k \langle v_k, x \rangle + b_k\),Lorentz BMLR → \(\alpha_k \langle v_k, x_s \rangle + b_k\),均退化为欧式 MLR
设计二:点到极球面距离解释¶
做什么:为 BMLR 的 logit 提供几何意义。
核心思路:在 Hadamard 空间(含欧式和双曲空间的更广义度量空间)中,Busemann 函数的等值面(horophere)间距恒定:\(d(H_{\tau_1}^\gamma, H_{\tau_2}^\gamma) = |\tau_2 - \tau_1|\)。因此点到 horophere 的距离为 \(d(x, H_\tau^v) = |B^v(x) - \tau|\),BMLR 的 logit 正是有符号的点到 horophere 距离乘以 \(\alpha_k\)。
设计动机:类比欧式 MLR 的点到超平面距离解释(Lebanon & Lafferty),使分类决策具有清晰的几何含义——样本离各类 horophere 越近,属于该类的概率越大。
设计三:Busemann FC(BFC)层¶
做什么:将全连接层从欧式空间提升到双曲空间。
核心思路:欧式 FC 可写成 \(\bar{d}(y, H_{e_k, 0}) = \langle a_k, x \rangle + b_k\),即输出的第 \(k\) 维是到坐标超平面的有符号距离。将右端替换为 Busemann logit,左端用双曲点到超平面距离,得到隐式方程 \(\bar{d}(y, H_{e_k, e}) = u_k(x)\),然后求解 \(y\)。
显式解: - Poincaré BFC:\(y = \omega / (1 + \sqrt{1 - K\|\omega\|^2})\),其中 \(\omega_k = \sinh(\sqrt{-K} \cdot u_k(x)) / \sqrt{-K}\) - Lorentz BFC:\(y_s = \sinh(\sqrt{-K} \cdot u(x)) / \sqrt{-K}\),\(y_t = \sqrt{1/(-K) + \|y_s\|^2}\)
设计动机: - 内蕴:直接在双曲流形上操作,不经切空间或环境空间近似 - 统一:同一框架适用于 Poincaré 和 Lorentz 模型 - 可扩展:可插入激活函数 \(\phi\),将 \(u_k(x)\) 替换为 \(\phi(-\alpha_k B^{v_k}(x) + b_k)\);也可附加 gyroaddition 偏置 - 复杂度:FLOPs 为 \(O(nm)\),与已有方法相当,Lorentz 版本仅 \(O(2nm)\)
损失函数 / 训练策略¶
- 分类任务(BMLR):标准交叉熵损失
- 链接预测(BFC):Fermi-Dirac 解码器配合交叉熵,按 HGCN 原始设置
- 参数约束:\(v_k\) 需保持单位球约束 \(v_k \in \mathbb{S}^{n-1}\),通过归一化实现;\(\alpha_k > 0\) 通过 softplus 保证
- 曲率:各任务曲率 \(K\) 作为可学习参数或交叉验证选取
- 特征映射:混合架构中,欧式 backbone 输出通过指数映射投射到双曲空间后再接 BMLR/BFC
实验关键数据¶
主实验¶
表1:图像分类准确率(ResNet-18 backbone,Top-1 %)¶
| 空间 | 方法 | CIFAR-10 (10类) | CIFAR-100 (100类) | Tiny-ImageNet (200类) | ImageNet-1k (1000类) |
|---|---|---|---|---|---|
| \(\mathbb{R}^n\) | MLR | 95.14 | 77.72 | 65.19 | 71.87 |
| \(\mathbb{P}_K^n\) | PMLR | 95.04 | 77.19 | 64.93 | 71.77 |
| \(\mathbb{P}_K^n\) | PBMLR-P | 95.23 | 77.78 | 65.43 | 71.46 |
| \(\mathbb{P}_K^n\) | BMLR-P | 95.32 | 78.10 | 66.16 | 73.36 |
| \(\mathbb{L}_K^n\) | LMLR | 94.98 | 78.03 | 65.63 | 72.46 |
| \(\mathbb{L}_K^n\) | BMLR-L | 95.25 | 78.07 | 65.99 | 73.24 |
关键发现:BMLR 相对已有双曲 MLR 的优势随类别数增大而增大——在 ImageNet-1k(1000类)上 BMLR-P 比 PMLR 高 1.59%,比 PBMLR-P 高 1.90%。PBMLR-P 参数量为其他方法两倍且训练速度最慢。
表2:节点分类 F1(HGCN backbone)与链接预测 AUC¶
| 空间 | 方法 | Disease (δ=0) | Airport (δ=1) | PubMed (δ=3.5) | Cora (δ=11) |
|---|---|---|---|---|---|
| 节点分类 F1 | |||||
| \(\mathbb{P}_K^n\) | HGCN (tangent) | 86.87 | 85.34 | 76.29 | 76.56 |
| \(\mathbb{P}_K^n\) | HGCN-BMLR-P | 92.45 | 86.02 | 77.36 | 78.48 |
| \(\mathbb{L}_K^n\) | HGCN-LMLR | 89.72 | 82.61 | 75.44 | 69.91 |
| \(\mathbb{L}_K^n\) | HGCN-BMLR-L | 90.80 | 85.27 | 77.30 | 77.65 |
| 链接预测 AUC | |||||
| \(\mathbb{P}_K^n\) | Poincaré FC | 79.45 | 94.31 | 94.24 | 88.21 |
| \(\mathbb{P}_K^n\) | BFC-P | 80.45 | 94.88 | 94.85 | 91.94 |
| \(\mathbb{L}_K^n\) | Lorentz FC | 72.78 | 92.99 | 94.20 | 92.06 |
| \(\mathbb{L}_K^n\) | BFC-L | 78.36 | 95.37 | 94.90 | 92.28 |
消融实验¶
- 类别数效应:从 CIFAR-10(10类)到 ImageNet-1k(1000类),BMLR 的优势从 ~0.2% 扩大到 ~1.6%,说明 Busemann 函数在高维分类上的表达能力优势
- 双曲度效应:在节点分类中,LMLR 在 Cora(\(\delta=11\),最不双曲)上严重退化(69.91 vs tangent 的 77.37),但 BMLR-L 依然保持 77.65,显示出对图双曲度的鲁棒性
- 链接预测中 Disease(\(\delta=0\),最双曲):BFC-L 比 Lorentz FC 高 5.58%,在最双曲的数据上 Busemann 几何优势最大
关键发现¶
- 类别数越多优势越大:BMLR 在 1000 类的 ImageNet-1k 上比 PMLR 高 1.59%,比 LMLR 高 0.78%
- 训练速度最快:Lorentz BMLR 在所有双曲 MLR 中 FLOPs 最低,fit time 最短;PBMLR-P 因不支持批计算,在 16 个基因组数据集上稳定最慢
- 几何越双曲增益越大:链接预测中 Disease(\(\delta=0\))上 BFC-L 比 Lorentz FC 高 5.58%,但在较平坦的 Cora(\(\delta=11\))上差距缩小到 0.22%
- 鲁棒性:已有双曲 MLR 在非双曲图上可能不如 tangent baseline(如 LMLR 在 Cora 上大幅退化),BMLR 在所有 \(\delta\) 下均为最佳
亮点与洞察¶
- 数学优雅:用 Busemann 函数统一了欧式内积 → 双曲空间的推广,一个公式同时涵盖 Poincaré 和 Lorentz 两种模型
- 理论完整:证明了 Hadamard 空间中极球面等距性质(Thm 3.3),给出了 BMLR 的点到 horophere 距离解释,以及 \(K \to 0^-\) 的极限定理
- 实用性强:BMLR-L 的 FLOPs 为 \(C(2n+12)\),接近欧式 MLR 的 \(C(2n)\),几乎零额外开销
- 跨领域验证:四类任务(视觉、基因组、图节点分类、图链接预测)覆盖面广,说明方法的通用性
局限性 / 可改进方向¶
- 仅覆盖 MLR 和 FC:注意力、归一化、残差等其他网络组件未用 Busemann 函数重构,是否能构建完整的 Busemann 网络?
- 曲率固定或手工选择:虽提到可学习曲率,但实验中主要通过交叉验证选取,自适应曲率学习有待探索
- 仅限常曲率空间:真实数据可能具有变曲率结构(如乘积空间 \(\mathbb{H} \times \mathbb{E}\)),Busemann 函数在混合曲率空间的推广值得研究
- 大规模 GNN 实验不足:图学习实验仅用小规模数据集(最大 PubMed ~20K节点),在百万级图上的表现未验证
相关工作与启发¶
- 承接自:Ganea et al. (NeurIPS'18) Poincaré MLR/FC → Shimizu et al. (NeurIPS'21) 重参数化 → Bdeir et al. (ICLR'24) Lorentz MLR/CNN
- Busemann 函数在 ML 中的应用:Fan et al. 双曲 SVM、Chami et al. 双曲 PCA、Bonet et al. Sliced-Wasserstein
- 启发:Busemann 函数作为"内蕴内积"的角色可类推到其他 Hadamard 流形(如 SPD 矩阵空间),为设计更通用的流形神经网络组件提供模板
评分¶
- ⭐⭐⭐⭐ 新颖性:以 Busemann 函数为工具统一构建双曲 MLR 和 FC 层,数学动机清晰、理论框架优雅,但核心思路是已有工具的组合应用
- ⭐⭐⭐⭐ 实验充分度:覆盖 4 类任务 20+ 数据集、两种双曲模型的系统对比,含效率分析;但图实验仅用经典小规模数据集,缺少 OGB 等大规模基准
- ⭐⭐⭐⭐⭐ 写作质量:定理-证明结构严谨,对比表格清晰全面,欧式-双曲类比的叙述脉络流畅易懂
- ⭐⭐⭐⭐ 实用性:代码已开源,BMLR/BFC 即插即用,Lorentz BMLR 速度接近欧式 MLR,实际部署门槛低