Hyperbolic Busemann Neural Networks¶

会议: CVPR 2026 arXiv: 2602.18858 代码: 有领域: 图学习 关键词: 双曲神经网络, Busemann函数, 双曲分类, 全连接层, 流形学习

一句话总结¶

利用 Busemann 函数将多类逻辑回归（MLR）和全连接层（FC）内蕴地提升到双曲空间，提出 BMLR 和 BFC 两个统一组件，在 Poincaré 球和 Lorentz 模型上同时适用，且在图像分类、基因组序列、节点分类、链接预测四类任务上均优于已有双曲层。

研究背景与动机¶

1. 领域现状¶

双曲空间因其指数级体积增长特性，能低失真地嵌入树状与层次结构数据，近年来在计算机视觉、图学习、多模态学习、推荐系统、基因组学、NLP 等领域取得广泛成功。为支撑双曲深度学习，MLR（多类逻辑回归）和 FC（全连接层）这两个核心组件已被多次推广到 Poincaré 球和 Lorentz 模型。

2. 痛点¶

现有双曲 MLR 和 FC 层存在若干共性问题：

过度参数化：Ganea 等人的 Poincaré MLR 每类需额外的流形参数 \(p_k \in \mathbb{P}_K^n\)，参数量翻倍
批计算效率低：部分方法（如 PBMLR-P）需逐类循环计算，无法高效矩阵化
模型特异性：Poincaré FC 仅适用于 Poincaré 模型，Lorentz FC 仅适用于 Lorentz 模型，缺乏统一框架
几何失真：Möbius FC 和 Lorentz FC 在切空间或环境 Minkowski 空间做欧式变换后投影，扭曲了内蕴几何

3. 核心矛盾¶

实践需要一个内蕴、高效、统一的双曲 MLR/FC 层，但已有方案要么不内蕴（依赖切空间/环境空间近似）、要么不高效（过度参数化/不支持批处理）、要么不统一（绑定单一模型）。

4. 要解决什么¶

在 Poincaré 和 Lorentz 两大双曲模型上提供统一的、参数紧凑的、批高效的 MLR 和 FC 层，且保留真实的几何距离解释。

5. 切入角度¶

Busemann 函数——双曲空间中内积的内蕴推广。欧式内积 \(\langle v, x \rangle\) 在双曲空间的对应是 Busemann 函数 \(-B^v(x)\)；欧式超平面的对应是horophere（极球面）。这对概念在 Poincaré 和 Lorentz 模型上均有解析闭式。

6. 核心 idea¶

用 Busemann 函数直接替换欧式 MLR/FC 中的内积运算，得到 BMLR（Busemann MLR）和 BFC（Busemann FC），一套公式同时覆盖两种双曲模型，且当曲率 \(K \to 0^-\) 时自然退化回欧式对应物。

方法详解¶

整体框架¶

本文提出两个核心组件：

BMLR：替换网络最后的分类头，将欧式 softmax 逻辑值 \(u_k(x) = \langle a_k, x \rangle + b_k\) 推广为 \(u_k(x) = -\alpha_k B^{v_k}(x) + b_k\)
BFC：替换网络中间的全连接层，将欧式 FC 的逐元素输出 \(y_k = \langle a_k, x \rangle + b_k\) 推广为通过 Busemann 函数的点到极球面有符号距离方程来隐式定义输出

两者共享相同的数学框架：欧式内积 → Busemann 函数，欧式超平面 → horophere。

关键设计¶

设计一：Busemann MLR（BMLR）¶

做什么：将多类分类的 logit 计算从欧式空间提升到双曲空间。

核心思路：欧式 MLR 的 logit \(u_k(x) = \alpha_k \langle v_k, x \rangle + b_k\) 中，\(\langle v_k, x \rangle\) 是内积。根据 Busemann 函数与内积的对应关系（\(B^v(x) = -\langle x, v \rangle\) 在欧式空间），定义双曲 logit：

\[u_k(x) = -\alpha_k B^{v_k}(x) + b_k\]

其中 \(\alpha_k > 0\)，\(v_k \in \mathbb{S}^{n-1}\)，\(b_k \in \mathbb{R}\)。在 Poincaré 球上 \(B^v(x) = \frac{1}{\sqrt{-K}} \log \frac{\|v - \sqrt{-K}x\|^2}{1 + K\|x\|^2}\)，在 Lorentz 模型上 \(B^v(x) = \frac{1}{\sqrt{-K}} \log(\sqrt{-K}(x_t - \langle x_s, v \rangle))\)。

设计动机： - 参数紧凑：每类仅需 \((\alpha_k, v_k, b_k)\)，共 \(C(n+2)\) 参数，无需额外流形值参数 - 几何忠实：logit 等价于点到 horophere 的真实测地距离（非伪距离） - 批高效：所有类的 logit 可通过矩阵乘法一次计算 - 极限正确：\(K \to 0^-\) 时 Poincaré BMLR → \(2\alpha_k \langle v_k, x \rangle + b_k\)，Lorentz BMLR → \(\alpha_k \langle v_k, x_s \rangle + b_k\)，均退化为欧式 MLR

设计二：点到极球面距离解释¶

做什么：为 BMLR 的 logit 提供几何意义。

核心思路：在 Hadamard 空间（含欧式和双曲空间的更广义度量空间）中，Busemann 函数的等值面（horophere）间距恒定：\(d(H_{\tau_1}^\gamma, H_{\tau_2}^\gamma) = |\tau_2 - \tau_1|\)。因此点到 horophere 的距离为 \(d(x, H_\tau^v) = |B^v(x) - \tau|\)，BMLR 的 logit 正是有符号的点到 horophere 距离乘以 \(\alpha_k\)。

设计动机：类比欧式 MLR 的点到超平面距离解释（Lebanon & Lafferty），使分类决策具有清晰的几何含义——样本离各类 horophere 越近，属于该类的概率越大。

设计三：Busemann FC（BFC）层¶

做什么：将全连接层从欧式空间提升到双曲空间。

核心思路：欧式 FC 可写成 \(\bar{d}(y, H_{e_k, 0}) = \langle a_k, x \rangle + b_k\)，即输出的第 \(k\) 维是到坐标超平面的有符号距离。将右端替换为 Busemann logit，左端用双曲点到超平面距离，得到隐式方程 \(\bar{d}(y, H_{e_k, e}) = u_k(x)\)，然后求解 \(y\)。

显式解： - Poincaré BFC：\(y = \omega / (1 + \sqrt{1 - K\|\omega\|^2})\)，其中 \(\omega_k = \sinh(\sqrt{-K} \cdot u_k(x)) / \sqrt{-K}\) - Lorentz BFC：\(y_s = \sinh(\sqrt{-K} \cdot u(x)) / \sqrt{-K}\)，\(y_t = \sqrt{1/(-K) + \|y_s\|^2}\)

设计动机： - 内蕴：直接在双曲流形上操作，不经切空间或环境空间近似 - 统一：同一框架适用于 Poincaré 和 Lorentz 模型 - 可扩展：可插入激活函数 \(\phi\)，将 \(u_k(x)\) 替换为 \(\phi(-\alpha_k B^{v_k}(x) + b_k)\)；也可附加 gyroaddition 偏置 - 复杂度：FLOPs 为 \(O(nm)\)，与已有方法相当，Lorentz 版本仅 \(O(2nm)\)

损失函数 / 训练策略¶

分类任务（BMLR）：标准交叉熵损失
链接预测（BFC）：Fermi-Dirac 解码器配合交叉熵，按 HGCN 原始设置
参数约束：\(v_k\) 需保持单位球约束 \(v_k \in \mathbb{S}^{n-1}\)，通过归一化实现；\(\alpha_k > 0\) 通过 softplus 保证
曲率：各任务曲率 \(K\) 作为可学习参数或交叉验证选取
特征映射：混合架构中，欧式 backbone 输出通过指数映射投射到双曲空间后再接 BMLR/BFC

实验关键数据¶

主实验¶

表1：图像分类准确率（ResNet-18 backbone，Top-1 %）¶

空间	方法	CIFAR-10 (10类)	CIFAR-100 (100类)	Tiny-ImageNet (200类)	ImageNet-1k (1000类)
\(\mathbb{R}^n\)	MLR	95.14	77.72	65.19	71.87
\(\mathbb{P}_K^n\)	PMLR	95.04	77.19	64.93	71.77
\(\mathbb{P}_K^n\)	PBMLR-P	95.23	77.78	65.43	71.46
\(\mathbb{P}_K^n\)	BMLR-P	95.32	78.10	66.16	73.36
\(\mathbb{L}_K^n\)	LMLR	94.98	78.03	65.63	72.46
\(\mathbb{L}_K^n\)	BMLR-L	95.25	78.07	65.99	73.24

关键发现：BMLR 相对已有双曲 MLR 的优势随类别数增大而增大——在 ImageNet-1k（1000类）上 BMLR-P 比 PMLR 高 1.59%，比 PBMLR-P 高 1.90%。PBMLR-P 参数量为其他方法两倍且训练速度最慢。

表2：节点分类 F1（HGCN backbone）与链接预测 AUC¶

空间	方法	Disease (δ=0)	Airport (δ=1)	PubMed (δ=3.5)	Cora (δ=11)
节点分类 F1
\(\mathbb{P}_K^n\)	HGCN (tangent)	86.87	85.34	76.29	76.56
\(\mathbb{P}_K^n\)	HGCN-BMLR-P	92.45	86.02	77.36	78.48
\(\mathbb{L}_K^n\)	HGCN-LMLR	89.72	82.61	75.44	69.91
\(\mathbb{L}_K^n\)	HGCN-BMLR-L	90.80	85.27	77.30	77.65
链接预测 AUC
\(\mathbb{P}_K^n\)	Poincaré FC	79.45	94.31	94.24	88.21
\(\mathbb{P}_K^n\)	BFC-P	80.45	94.88	94.85	91.94
\(\mathbb{L}_K^n\)	Lorentz FC	72.78	92.99	94.20	92.06
\(\mathbb{L}_K^n\)	BFC-L	78.36	95.37	94.90	92.28

消融实验¶

类别数效应：从 CIFAR-10（10类）到 ImageNet-1k（1000类），BMLR 的优势从 ~0.2% 扩大到 ~1.6%，说明 Busemann 函数在高维分类上的表达能力优势
双曲度效应：在节点分类中，LMLR 在 Cora（\(\delta=11\)，最不双曲）上严重退化（69.91 vs tangent 的 77.37），但 BMLR-L 依然保持 77.65，显示出对图双曲度的鲁棒性
链接预测中 Disease（\(\delta=0\)，最双曲）：BFC-L 比 Lorentz FC 高 5.58%，在最双曲的数据上 Busemann 几何优势最大

关键发现¶

类别数越多优势越大：BMLR 在 1000 类的 ImageNet-1k 上比 PMLR 高 1.59%，比 LMLR 高 0.78%
训练速度最快：Lorentz BMLR 在所有双曲 MLR 中 FLOPs 最低，fit time 最短；PBMLR-P 因不支持批计算，在 16 个基因组数据集上稳定最慢
几何越双曲增益越大：链接预测中 Disease（\(\delta=0\)）上 BFC-L 比 Lorentz FC 高 5.58%，但在较平坦的 Cora（\(\delta=11\)）上差距缩小到 0.22%
鲁棒性：已有双曲 MLR 在非双曲图上可能不如 tangent baseline（如 LMLR 在 Cora 上大幅退化），BMLR 在所有 \(\delta\) 下均为最佳

亮点与洞察¶

数学优雅：用 Busemann 函数统一了欧式内积 → 双曲空间的推广，一个公式同时涵盖 Poincaré 和 Lorentz 两种模型
理论完整：证明了 Hadamard 空间中极球面等距性质（Thm 3.3），给出了 BMLR 的点到 horophere 距离解释，以及 \(K \to 0^-\) 的极限定理
实用性强：BMLR-L 的 FLOPs 为 \(C(2n+12)\)，接近欧式 MLR 的 \(C(2n)\)，几乎零额外开销
跨领域验证：四类任务（视觉、基因组、图节点分类、图链接预测）覆盖面广，说明方法的通用性

局限性 / 可改进方向¶

仅覆盖 MLR 和 FC：注意力、归一化、残差等其他网络组件未用 Busemann 函数重构，是否能构建完整的 Busemann 网络？
曲率固定或手工选择：虽提到可学习曲率，但实验中主要通过交叉验证选取，自适应曲率学习有待探索
仅限常曲率空间：真实数据可能具有变曲率结构（如乘积空间 \(\mathbb{H} \times \mathbb{E}\)），Busemann 函数在混合曲率空间的推广值得研究
大规模 GNN 实验不足：图学习实验仅用小规模数据集（最大 PubMed ~20K节点），在百万级图上的表现未验证

评分¶

⭐⭐⭐⭐ 新颖性：以 Busemann 函数为工具统一构建双曲 MLR 和 FC 层，数学动机清晰、理论框架优雅，但核心思路是已有工具的组合应用
⭐⭐⭐⭐ 实验充分度：覆盖 4 类任务 20+ 数据集、两种双曲模型的系统对比，含效率分析；但图实验仅用经典小规模数据集，缺少 OGB 等大规模基准
⭐⭐⭐⭐⭐ 写作质量：定理-证明结构严谨，对比表格清晰全面，欧式-双曲类比的叙述脉络流畅易懂
⭐⭐⭐⭐ 实用性：代码已开源，BMLR/BFC 即插即用，Lorentz BMLR 速度接近欧式 MLR，实际部署门槛低