Asymptotically Stable Quaternionic Hopfield Structured Neural Network with Supervised Projection-based Manifold Learning¶

会议: NeurIPS 2025
arXiv: 2510.16607
代码: 无
领域: 神经网络 / 机器人控制 / 优化
关键词: quaternion neural network, Hopfield network, asymptotic stability, manifold learning, robotic path planning

一句话总结¶

提出四元数值监督学习 Hopfield 结构神经网络 (QSHNN)，通过周期性投影策略保持权重矩阵的四元数结构一致性，并基于 Lyapunov 理论证明了不动点的存在唯一性和渐近稳定性，轨迹曲率有界保证机器人路径规划的平滑性。

研究背景与动机¶

领域现状：Hopfield 神经网络 (HNN) 是经典的吸引子模型，具有对称拓扑和循环连接，状态趋向离散平衡点。四元数 \(\mathbb{H}\) 自然表示 3D 旋转，在机器人关节姿态参数化中有天然优势。
现有痛点：
已有四元数 Hopfield 网络主要在离散时间/无监督范式下工作，依赖 Hebbian 或外积公式直接编码权重，存储容量有限（少数目标状态后出现伪吸引子），且不支持动态重配置
直接编码缺乏误差驱动优化机制，无法根据任务目标调整行为
连续时间的现代 HNN (如 Ramsauer et al. 2021) 仍局限于能量最小化驱动的无监督范式，缺乏显式目标跟踪和结构控制
核心矛盾：在四元数域上做监督学习时，标准梯度下降会破坏权重矩阵的四元数块结构（每个 \(4\times4\) 块应对应一个四元数左乘矩阵），导致网络丧失四元数的几何优势
核心 idea：设计一种周期性投影学习策略——在标准梯度下降过程中，每隔 \(\mathcal{P}\) 步将权重矩阵的每个 \(4\times4\) 块投影到最近四元数结构（最小二乘意义），同时保持收敛性和四元数一致性

方法详解¶

整体框架¶

输入：目标四元数状态 \(\boldsymbol{d} \in \mathbb{H}^N\) → QSHNN 动力系统演化（连续时间 ODE）→ 收敛到平衡点 \(\boldsymbol{q}^*\) → 误差驱动的梯度下降 + 周期性投影更新权重 → 输出：训练后的权重矩阵 \(W\) 和平滑轨迹。

演化方程：\(\dot{\boldsymbol{q}} = -\gamma\boldsymbol{q} + \mu\boldsymbol{W}\circ\boldsymbol{\varphi}(\boldsymbol{q}) + \mu\boldsymbol{b}\)

其中 \(\boldsymbol{W}\) 是四元数权重矩阵，\(\boldsymbol{\varphi}\) 是分量级 tanh 激活，\(\gamma, \mu\) 为网络参数。

关键设计¶

四元数神经元结构
做什么：将 4 个实值神经元整合为一个四元数神经元，内部连接完全由单个四元数权重 \(\boldsymbol{\omega}\) 表征
核心思路：通过四元数左乘矩阵表示（Eq. 2.2），四元数乘法等价于 \(\mathbb{R}^4\) 上的矩阵-向量乘法。所有左乘矩阵构成 \(\mathbb{R}^{4\times4}\) 的 4 维嵌入子流形 \(\mathcal{L}\)，是一个实矩阵 Lie 群
设计动机：保持四元数代数结构的同时使网络兼容标准数值方法（Runge-Kutta 求解 ODE）
GHR 微积分驱动的监督学习规则
做什么：推导出四元数域上的精确梯度下降更新公式
核心思路：由于四元数代数的非交换性，普通微分公式失效。采用 Generalized \(\mathbb{HR}\) (GHR) 微积分框架，通过四元数旋转变换获得正交基 \(\{1, \boldsymbol{i}^\mu, \boldsymbol{j}^\mu, \boldsymbol{k}^\mu\}\) 上的偏导数，推导出灵敏度矩阵 \(S = \mathbb{I}_{4n} - \frac{\mu}{\gamma}W \cdot J_\varphi(\boldsymbol{q})\) 参与的权重更新规则
设计动机：区别于 Hebbian 直接编码，误差驱动的学习允许网络根据任务目标动态调整
周期性投影策略
做什么：每 \(\mathcal{P}=10\) 步梯度下降后，将权重矩阵每个 \(4\times4\) 块投影到最近四元数结构
核心思路：投影公式 \(\widetilde{W} = c_1 L(1) + c_i L(\boldsymbol{i}) + c_j L(\boldsymbol{j}) + c_k L(\boldsymbol{k})\)，其中 \(c_1, c_i, c_j, c_k\) 通过最小二乘求解。利用流形 \(\mathcal{L}\) 的线性结构，投影有闭式解
设计动机：纯梯度下降会导致权重偏离四元数子流形（如热力图所示无块结构），而显式约束训练（如拉格朗日乘子）计算复杂。周期性投影在效率和结构保持间取得平衡
渐近稳定性证明
做什么：基于 Lyapunov 理论证明 QSHNN 不动点的存在唯一性和全局渐近稳定性
核心思路：构造 Lyapunov 能量函数 \(V(\boldsymbol{q})\)，证明其关于时间的导数严格负定（\(\dot{V} < 0\)），从而保证任意初始状态收敛到唯一平衡点。同时证明轨迹曲率有界，保证路径平滑性
设计动机：对机器人控制至关重要——平滑且可证明收敛的轨迹避免了关节突变或振荡

损失函数 / 训练策略¶

损失：\(\ell = \sum_n |\boldsymbol{q}^*_n - \boldsymbol{d}_n|^2\)（平衡点与目标的 MSE）
学习率 \(\eta = 0.001 \sim 0.2\)（自适应调整），投影周期 \(\mathcal{P}=10\)
最大训练 30000 epochs，收敛阈值 \(\tau = 10^{-6}\)
ODE 求解：Runge-Kutta 数值方法

实验关键数据¶

主实验¶

实验在 4 个四元数神经元（16 个实值神经元）的网络上验证，目标随机生成 \(d_i \sim \mathcal{U}(-1, 1)\)。

指标	SHNN（无投影）	QSHNN（有投影）
收敛精度	高（\(< 10^{-6}\)）	高（\(< 10^{-6}\)）
四元数结构保持	✗ 权重无块结构	✓ 权重呈四元数对称块
轨迹平滑性	无保证	曲率有界
最大迭代数	10000	30000

消融实验¶

配置	效果	说明
SHNN（纯梯度下降）	快速收敛但破坏四元数结构	热力图无明显块结构
QSHNN（周期投影）	收敛+结构保持	热力图呈清晰 \(4\times4\) 块
等分量目标 \(q_s^i=q_x^i=q_y^i=q_z^i\)	权重集中在主对角线	模型自适应目标对称性

关键发现¶

投影诱导的训练曲线波动更剧烈（投影打断连续梯度下降），但最终收敛精度相当
权重矩阵的热力图直观展示：无投影时块内无结构；有投影时呈四元数对称矩阵
初步机器人仿真（PyBullet）验证 QSHNN 可驱动 4 自由度机械臂从任意初始关节构型平滑收敛到目标末端姿态

亮点与洞察¶

理论完整性：从存在唯一性→渐近稳定性→曲率有界的完整理论链，这在四元数神经网络中很少见，为实际部署提供了数学保证
周期投影的简洁性：利用四元数左乘流形 \(\mathcal{L}\) 的线性结构，投影有闭式解，实现成本低。这个"训练中周期性投影到结构化子空间"的策略有潜力推广到其他代数约束网络
GHR 微积分框架：为非交换代数上的梯度下降提供了系统化工具，不仅限于四元数，可推广到八元数等超复数

局限性 / 可改进方向¶

实验规模极小：仅 4 个四元数神经元，未展示扩展到更大网络时的可行性和性能
机器人应用仅为初步仿真（PyBullet 原型），缺乏与现有工业基线（RRT、PRM 等）的定量对比
目标状态随机生成，未在真实任务（如特定抓取姿态序列）上验证
投影周期 \(\mathcal{P}\) 的选择缺乏理论指导，当前固定为 10

评分¶

新颖性: ⭐⭐⭐⭐ 四元数 + Hopfield + 监督学习 + 周期投影的组合确实新颖，理论推导严谨
实验充分度: ⭐⭐ 实验规模太小（4 神经元），缺乏与基线的定量对比，机器人应用仅为原型
写作质量: ⭐⭐⭐⭐ 数学推导清晰，但行文偏冗长
价值: ⭐⭐⭐ 理论基础扎实，但实际应用价值需更大规模实验验证