EUGens: Efficient, Unified, and General Dense Layers¶
会议: NeurIPS 2025 arXiv: 2410.09771 代码: 待确认 领域: 3d_vision 关键词: efficient neural network, random features, feedforward layer, Transformer, NeRF
一句话总结¶
EUGens 提出一类新的高效稠密层,利用随机特征(Random Features)将全连接前馈层的推理复杂度从二次降到线性,统一了已有的高效 FFL 扩展,在 LLM 预训练、ViT 图像分类、NeRF/iSDF 三维重建等任务中实现高达 27% 加速和 30% 参数压缩,且支持无需反向传播的层级知识蒸馏。
背景与动机¶
- 全连接前馈层(FFL)是 Transformer 和隐式神经表示(NeRF, iSDF 等)的核心组件,占据大量参数和计算
- FFL 推理时间复杂度为 O(d^2 + dl),随隐藏层维度二次增长
- 现有加速手段(剪枝、量化、知识蒸馏、结构化矩阵)各有局限,缺乏通用的 FFL 替代方案
- Random Features 方法可以解耦权重和输入处理,但已有工作(URF/SNNK)要求激活函数有傅里叶变换,无法处理 ReLU 等无界激活函数
核心问题¶
如何设计一种通用的高效稠密层,能以线性复杂度无偏近似标准 FFL(包括任意多项式激活函数),同时保持表达能力并兼容预训练模型?
方法详解¶
1. EUGen 层定义¶
k 阶 EUGen 层解耦权重 w 和输入 x 的处理:
其中 x+ = [x; ||x||_2] 引入对输入范数的直接依赖,G_j^i 为随机投影矩阵,通过 Hadamard 积和拼接构造不同阶的特征映射。
2. 理论保证¶
定理 3.1: 对任意多项式激活函数 f,EUGens 可构造无偏估计器近似 FFL 输出。这是首个针对任意多项式激活的无偏近似结果。
定理 3.2-3.3: 方差公式和指数小概率集中不等式。失败概率在随机特征数 m 上指数递减。
定理 3.4: 通过多项式逼近,可推广到一般连续激活函数(如 ReLU, GeLU, Softplus)。
3. 推理复杂度¶
权重侧可预计算。推理时复杂度为 O(mdk^2 + ml)。实际使用 k <= 3,当 m << min(d, l) 时从 O(d^2) 降至 O(d)。
4. QMC 改进¶
用高斯正交矩阵(GOMs)替代标准高斯投影,降低估计方差。
5. 层级知识蒸馏¶
存储目标层输入输出,用 MSE 最优化 EUGen 层参数。当 G_j^i 采样自固定分布时有闭式解,无需反向传播。
实验关键数据¶
LLM 预训练(GPT-2, 124M, OpenWebText)¶
EUGen 替换 FFL 后验证 loss 接近原始 GPT-2,同时显著减少推理参数。替换 6 层可减少约 30% 参数。
ViT 图像分类(ViT-Base)¶
| 设置 | ImageNet Acc | 推理参数占比 |
|---|---|---|
| Vanilla ViT | 基准 | 100% |
| EUGen 替换 6 层 | 接近基准 | ~70% |
| Low-Rank 等量参数 | 明显下降 | ~70% |
EUGens 以相同参数量显著优于 Low-Rank 基线。
NeRF 三维重建¶
| 方法 | PSNR | 推理加速 | 模型压缩 |
|---|---|---|---|
| NeRF | 基准 | 1x | 1x |
| EUGen-NeRF | 接近基准 | 24% 加速 | 30% 压缩 |
| Mip-NeRF 360 | 基准 | 1x | 1x |
| EUGen-Mip-NeRF | 接近基准 | 27% 加速 | — |
iSDF 实时 SDF 重建¶
EUGen-iSDF 推理加速 22.6%,训练加速 5%,重建质量相当。
知识蒸馏¶
NeRF 蒸馏可在不重训练的情况下实现高达 26% 推理加速。
亮点¶
- 理论功底扎实:首个对任意多项式激活函数的无偏 FFL 近似
- 真正的通用组件:同一层设计无缝集成到 LLM, ViT, NeRF, iSDF 四类架构
- 闭式知识蒸馏避免了重训练,对预训练模型的即插即用价值极高
- 输入范数直接依赖扩展了标准 FFL 的表达空间
局限性 / 可改进方向¶
- 近似误差随替换层数累积,大规模替换可能影响性能
- 当前仅展示 k <= 2 的实验,更高阶的实用性未充分验证
- 与正交化、量化等其他压缩手段的组合效果未探索
- 在超大模型(如 70B LLM)上的验证缺失
与相关工作的对比¶
- vs SNNK/URF: EUGens 的特例;SNNK 需要激活函数有傅里叶变换,不适用于 ReLU
- vs Low-Rank: 同等参数量下 EUGens 精度显著更高
- vs 剪枝/量化: 正交互补,可组合使用
- vs Instant-NGP/3DGS: 不同层面的 NeRF 加速(hash/splatting vs FFL 替换)
启发与关联¶
- 随机特征方法在深度学习加速领域的潜力被低估
- 解耦权重-输入的思路可能启发注意力层的类似加速
- 闭式蒸馏对大模型部署(边缘设备、实时推理)有直接应用价值
评分¶
- ⭐ 新颖性: 4/5 — 理论贡献(无偏多项式近似)突出,架构设计巧妙
- ⭐ 实验充分度: 4.5/5 — 横跨 NLP/CV/3D 四类任务,消融全面
- ⭐ 写作质量: 4/5 — 理论与实验平衡好,结构清晰
- ⭐ 价值: 4/5 — 通用高效层替换方案,实用性强