xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity¶

会议: ICLR2026
arXiv: 2510.02228
代码: NX-AI/xlstm_scaling_laws
领域: llm_efficiency
关键词: scaling laws, xLSTM, 线性复杂度, Transformer对比, 推理效率

一句话总结¶

系统对比 xLSTM 与 Transformer 的 scaling law，证明 xLSTM 在训练损失-算力 Pareto 前沿、过训练 regime 和推理速度上全面优于同规模 Transformer，且优势随上下文长度增大而增长。

Scaling law 是 LLM 设计的核心指导工具（Kaplan 2020, Chinchilla 2022），但现有研究几乎全部聚焦在 Transformer 架构
xLSTM 等线性复杂度架构已在十亿参数级别展现竞争力（xLSTM 7B），但缺乏与 Transformer 的系统性 scaling 对比
传统 FLOP 近似 \(C(N,D)=6ND\) 忽略了注意力机制的计算量，无法公平比较线性/二次复杂度模型
对推理效率（TTFT、step time）与上下文长度的交互影响也缺乏系统分析

参数化拟合: \(\hat{L}(N,D) = E + (A N^{-\alpha} + B D^{-\beta})^{\gamma}\)，引入 \(\gamma\) 自由参数提升拟合质量
IsoFLOP 方法: 固定算力预算，变化 \(N\) 和 \(D\)，拟合二阶多项式找最优 \(N^*(H)\)、\(D^*(H)\)
Power-law 外推: \(\hat{N}^*(H) = A' \cdot H^a\), \(\hat{D}^*(H) = B' \cdot H^b\)

将推理时间建模为 \(\tau = \text{FLOPs}_{\text{algo}} / \alpha_{\text{eff}} + \epsilon\) 或 \(\tau = \text{Bytes}_{\text{mem}} / \beta_{\text{eff}} + \epsilon\)
基于 roofline model 判断是计算密集还是内存密集
分 prefill 和 generation 两阶段分别分析

发现	细节
Pareto 支配	xLSTM 在近 5 个数量级算力范围内严格 Pareto-dominate Transformer
过训练指数	xLSTM 的 power-law 指数 \(\eta\) 在 \(M=22\) 到 \(M=2200\) 范围内保持恒定，与 Transformer 一致
Compute-optimal 大小	相同算力下，xLSTM 最优模型更大（线性运算更便宜→更多参数分配给深度/宽度）
上下文长度影响	Transformer 在 2048→16384 时最优模型大小显著下降；xLSTM 保持稳定

指标	16k prefill 结果
TTFT	xLSTM 比同尺寸 Transformer 低 30–50%
Step time	xLSTM 与 prefill 长度无关（常数）；Transformer 线性增长
极端对比	16k prefill 下最大 xLSTM 的 step time < 最小 Transformer 的 step time

Compute-optimal 模型的"loss vs 模型大小"关系在 xLSTM 和 Transformer 间近似落在同一条线上——暗示性能与模型大小存在跨架构的普适关系

Chinchilla (Hoffmann 2022): 本文复现了 Transformer 的 compute-optimal 指数，并扩展到 xLSTM
Gadre 2024 / Sardana 2024: 本文在过训练 regime 分析上与之一致，但增加了跨架构维度
Shen 2024: 展示线性模型与 Transformer "on par"，本文更进一步证明 xLSTM "优于" Transformer
Poli 2024: 混合架构优于纯 Transformer；本文证明纯线性架构也能胜出
Porian 2024: 本文复现了其 Transformer power-law 指数 \(a\)