跳转至

📖 NLP 理解

📷 CVPR2025 · 共 2

As Language Models Scale, Low-order Linear Depth Dynamics Emerge

将 Transformer 的深度方向视为离散时间动力系统,发现在给定上下文内可以用仅 32 维的线性状态空间代理模型高精度预测层间灵敏度曲线(Spearman 达 0.99),而且令人惊讶的是:模型越大,低阶线性代理越准确——这是一条新的 scaling law。

As Language Models Scale, Low-order Linear Depth Dynamics Emerge

将 Transformer 的深度方向视为离散时间动力系统,发现在给定上下文内可以用仅 32 维的线性状态空间代理模型高精度预测层间灵敏度曲线(Spearman 达 0.99),而且令人惊讶的是:模型越大,低阶线性代理越准确——这是一条新的 scaling law。