EUGens: Efficient, Unified, and General Dense Layers¶

会议: NeurIPS 2025 arXiv: 2410.09771 代码: 待确认领域: 3d_vision 关键词: efficient neural network, random features, feedforward layer, Transformer, NeRF

一句话总结¶

EUGens 提出一类新的高效稠密层，利用随机特征（Random Features）将全连接前馈层的推理复杂度从二次降到线性，统一了已有的高效 FFL 扩展，在 LLM 预训练、ViT 图像分类、NeRF/iSDF 三维重建等任务中实现高达 27% 加速和 30% 参数压缩，且支持无需反向传播的层级知识蒸馏。

背景与动机¶

全连接前馈层（FFL）是 Transformer 和隐式神经表示（NeRF, iSDF 等）的核心组件，占据大量参数和计算
FFL 推理时间复杂度为 O(d^2 + dl)，随隐藏层维度二次增长
现有加速手段（剪枝、量化、知识蒸馏、结构化矩阵）各有局限，缺乏通用的 FFL 替代方案
Random Features 方法可以解耦权重和输入处理，但已有工作（URF/SNNK）要求激活函数有傅里叶变换，无法处理 ReLU 等无界激活函数

核心问题¶

如何设计一种通用的高效稠密层，能以线性复杂度无偏近似标准 FFL（包括任意多项式激活函数），同时保持表达能力并兼容预训练模型？

方法详解¶

1. EUGen 层定义¶

k 阶 EUGen 层解耦权重 w 和输入 x 的处理：

\[\text{EUGen}^k(\mathbf{w}, \mathbf{x}) = g(\mathbf{w})^\top f(\mathbf{x})\]

其中 x+ = [x; ||x||_2] 引入对输入范数的直接依赖，G_j^i 为随机投影矩阵，通过 Hadamard 积和拼接构造不同阶的特征映射。

2. 理论保证¶

定理 3.1: 对任意多项式激活函数 f，EUGens 可构造无偏估计器近似 FFL 输出。这是首个针对任意多项式激活的无偏近似结果。

定理 3.2-3.3: 方差公式和指数小概率集中不等式。失败概率在随机特征数 m 上指数递减。

定理 3.4: 通过多项式逼近，可推广到一般连续激活函数（如 ReLU, GeLU, Softplus）。

3. 推理复杂度¶

权重侧可预计算。推理时复杂度为 O(mdk^2 + ml)。实际使用 k <= 3，当 m << min(d, l) 时从 O(d^2) 降至 O(d)。

4. QMC 改进¶

用高斯正交矩阵（GOMs）替代标准高斯投影，降低估计方差。

5. 层级知识蒸馏¶

存储目标层输入输出，用 MSE 最优化 EUGen 层参数。当 G_j^i 采样自固定分布时有闭式解，无需反向传播。

实验关键数据¶

LLM 预训练（GPT-2, 124M, OpenWebText）¶

EUGen 替换 FFL 后验证 loss 接近原始 GPT-2，同时显著减少推理参数。替换 6 层可减少约 30% 参数。

ViT 图像分类（ViT-Base）¶

设置	ImageNet Acc	推理参数占比
Vanilla ViT	基准	100%
EUGen 替换 6 层	接近基准	~70%
Low-Rank 等量参数	明显下降	~70%

EUGens 以相同参数量显著优于 Low-Rank 基线。

NeRF 三维重建¶

方法	PSNR	推理加速	模型压缩
NeRF	基准	1x	1x
EUGen-NeRF	接近基准	24% 加速	30% 压缩
Mip-NeRF 360	基准	1x	1x
EUGen-Mip-NeRF	接近基准	27% 加速	—

iSDF 实时 SDF 重建¶

EUGen-iSDF 推理加速 22.6%，训练加速 5%，重建质量相当。

知识蒸馏¶

NeRF 蒸馏可在不重训练的情况下实现高达 26% 推理加速。

亮点¶

理论功底扎实：首个对任意多项式激活函数的无偏 FFL 近似
真正的通用组件：同一层设计无缝集成到 LLM, ViT, NeRF, iSDF 四类架构
闭式知识蒸馏避免了重训练，对预训练模型的即插即用价值极高
输入范数直接依赖扩展了标准 FFL 的表达空间

局限性 / 可改进方向¶

近似误差随替换层数累积，大规模替换可能影响性能
当前仅展示 k <= 2 的实验，更高阶的实用性未充分验证
与正交化、量化等其他压缩手段的组合效果未探索
在超大模型（如 70B LLM）上的验证缺失

与相关工作的对比¶

vs SNNK/URF: EUGens 的特例；SNNK 需要激活函数有傅里叶变换，不适用于 ReLU
vs Low-Rank: 同等参数量下 EUGens 精度显著更高
vs 剪枝/量化: 正交互补，可组合使用
vs Instant-NGP/3DGS: 不同层面的 NeRF 加速（hash/splatting vs FFL 替换）

启发与关联¶

随机特征方法在深度学习加速领域的潜力被低估
解耦权重-输入的思路可能启发注意力层的类似加速
闭式蒸馏对大模型部署（边缘设备、实时推理）有直接应用价值

评分¶

⭐ 新颖性: 4/5 — 理论贡献（无偏多项式近似）突出，架构设计巧妙
⭐ 实验充分度: 4.5/5 — 横跨 NLP/CV/3D 四类任务，消融全面
⭐ 写作质量: 4/5 — 理论与实验平衡好，结构清晰
⭐ 价值: 4/5 — 通用高效层替换方案，实用性强