Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning¶

会议: NEURIPS2025
arXiv: 2505.15507
代码: 无（纯理论工作）
领域: others
关键词: non-commutative algebra, compositional embeddings, monoidal structure, interchange law, positional encoding, SSM, Transformer

一句话总结¶

提出一种基于方向性非交换幺半群算子的代数框架，为多维组合嵌入提供统一数学基础，将 SSM 递归、Transformer 自注意力和 RoPE 位置编码统一为特例。

背景与动机¶

很多结构化数据（序列、图像、视频）具有沿多个维度的层次化组合性质，但现有代数工具主要针对一维组合（如自由群、非交换半群）
二维及更高维的组合缺乏公认的代数框架：一个 2D 数组既可以按行组合也可以按列组合，这种多路径组合不适配传统的一维代数体系
现有 ML 架构（Transformer 位置编码、SSM 递归）虽然隐式实现了某种组合，但缺乏严格的代数基础和统一视角
将 token 表示为矩阵而非向量会破坏注意力机制的核心假设，矩阵表示与向量学习架构之间存在张力

核心问题¶

如何设计一个既兼容向量学习架构、又能沿多个轴自然支持组合的代数结构？

方法详解¶

一维情形¶

每个元素为元组 \(({\bf a}, A)\)，其中 \({\bf a} \in \mathbb{R}^n\)，\(A \in GL(n)\)。组合算子定义为：

\[({\bf a}, A) \circ ({\bf b}, B) := ({\bf a} + A{\bf b}, AB)\]

该运算满足结合律但不满足交换律，本质上是仿射变换群的半直积。

多轴推广¶

\(D\) 维的元素表示为 \({\bf x} = ({\bf a}, R_1^{n_1}, R_2^{n_2}, \ldots, R_D^{n_D})\)，其中 \(R_i \in GL(n)\) 为第 \(i\) 轴的变换矩阵，\(n_i \in \mathbb{Z}\) 为该轴上的位置/范围。沿第 \(k\) 轴的组合定义为：

\[{\bf x} \circ_k {\bf y} = ({\bf a} + R_k^{n_k} {\bf b},\; R_1^{n_1}, \ldots, R_k^{n_k + m_k}, \ldots, R_D^{n_D})\]

四大核心性质¶

轴特定组合算子：每个轴 \(i\) 有独立的组合算子 \(\circ_i\)
沿每轴结合律：\((x \circ_i y) \circ_i z = x \circ_i (y \circ_i z)\)
全局交换律（interchange law）：\((x \circ_i y) \circ_j (z \circ_i w) = (x \circ_j z) \circ_i (y \circ_j w)\)，当且仅当 \(R_i R_j = R_j R_i\)
单轴非交换性：\(x \circ_i y \neq y \circ_i x\)，保留方向/顺序信息

非交换自注意力机制¶

定义从位置 \(q\) 到 \(p\) 的相对变换 \(T_{p,q} = R_q R_{q+1} \cdots R_{p-1}\)，将其应用到 key 和 value：

\[\tilde{K}_{p,q} = T_{p,q} K_q, \quad \tilde{V}_{p,q} = T_{p,q} V_q\]

注意力权重和输出按标准方式计算，但位置信息以乘法方式（而非加法）编码进去。

多维推广¶

对于 \(D\) 维数据点，相对变换为 \(T_{p,q} = \prod_{i=1}^D R_i^{(n_{p,i} - n_{q,i})}\)，因 \(R_i\) 两两可交换故顺序无关。

统一 SSM 与 Transformer¶

SSM 递归：\(y_k = \sum_{i \le k} C_k (\prod_{j=i}^{k-1} A_j) B_i x_i\)
Vanilla Transformer：\(y_k = \sum_{i \le k} \alpha_{ik} V_i\)
本框架：\(y_k = \sum_{i \le k} \alpha_{ik} (\prod_{j=i}^{k-1} R_j) V_i\)

SSM 是注意力权重退化为隐式（均匀）且交互受限为递归结构的特例；标准 Transformer 是变换矩阵退化为单位阵的特例。

m-表示：平移不变的组合嵌入¶

通过滑动窗口 + 旋转变换构造局部有序但全局平移不变的表示。窗口嵌入为 \(s_k = \sum_{i=1}^m R^{i-1} a_{k+i-1}\)，取分块范数后求和得到 m-representation \(v\)，仅对内容变化敏感而对全局平移不变。

RoPE 作为特例¶

当所有 \(R_i = R\)（固定的块对角旋转矩阵）时，\(T_{p,q} = R^{(p-q)}\) 仅依赖相对位置，恰好恢复 Rotary Position Embedding。二维情形取 \(R_x, R_y\) 两个旋转矩阵即得 2D RoPE。

实验关键数据¶

本文为纯理论工作，不包含任何实验。 作者明确表示将实证验证留给后续工作。

亮点¶

统一性极强：用一个代数框架将 SSM、Transformer 自注意力、RoPE、仿射变换等看似不同的范式统一为特例
数学基础扎实：严格证明了结合律、交换律、逆元等代数性质
多维扩展自然：从 1D 到 2D/3D 的推广不是特设的，而是代数结构自然推导的结果
计算效率友好：当 \(R_i\) 参数化为 \(2 \times 2\) 块旋转矩阵时，乘法退化为角度相加，可高效并行扫描

局限性 / 可改进方向¶

最大短板：无实验验证，不清楚该代数结构在实践中是否真的带来性能提升
\(R_i \in GL(n)\) 在高维时计算和存储开销大，但块对角旋转参数化可缓解
交换律要求 \(R_i R_j = R_j R_i\)，限制了变换矩阵的表达能力（只能用可交换的矩阵族）
框架的实际训练稳定性未知
对边界条件和退化情形（如 \(R\) 接近奇异矩阵）的讨论不足

与相关工作的对比¶

方法	组合方式	多维	代数保证
RoPE	旋转矩阵乘法	可扩展但受限	本框架特例
矩阵空间模型 (Rudolph 2010)	矩阵乘法	仅 1D	非交换半群
S4/Mamba (SSM)	状态递归	仅 1D (S4ND 除外)	本框架特例
Transformer 自注意力	加权求和	需位置编码	本框架特例
本文	轴特定非交换幺半群	自然多维	结合律 + 交换律

启发与关联¶

为设计新架构提供了理论指导：可以有意识地选择不同的 \(R_i\) 参数化来获得特定的归纳偏置
将"位置编码"从 ad-hoc 设计提升到有代数保证的框架层面
多维交换律暗示图像/视频模型中行组合和列组合的结果应当一致，这是一个可测试的设计原则
可能启发新的高效并行算法：结合律保证了前缀扫描的可行性
m-representation 的平移不变性 + 局部有序性组合对内容匹配任务有潜在价值
轴特定的拼接操作 \(\oplus_k\) 为多模态融合提供了代数化的拼接/对齐原语

评分¶

新颖性: ⭐⭐⭐⭐⭐（首次提出此类多维非交换组合代数框架）
实验充分度: ⭐（无任何实验）
写作质量: ⭐⭐⭐⭐（理论推导清晰，但部分符号较重）
价值: ⭐⭐⭐（理论贡献有意义，但缺乏实验大幅削弱了实际影响力）