FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling¶

论文信息¶

提出FR-Spec框架，通过基于词频的词表空间压缩优化投机采样的draft候选选择，将LM Head计算开销降低75%，在保持输出分布不变的前提下实现EAGLE-2之上额外1.12×加速。

领域现状: 投机采样（Speculative Sampling）通过"先草拟后验证"机制每次前向传播生成多个token，是加速LLM自回归生成的关键技术。EAGLE-2等SOTA方法使用极轻量的单层Transformer作为draft模型。
被忽视的瓶颈: 主流LLM的词表规模已从Llama-2的32K增长到Llama-3的128K、Qwen-2.5的152K，但大词表对投机采样效率的负面影响一直未被研究。
关键洞察: 通过原生C/CUDA优化实现（消除Python开销后），发现draft过程中LM Head占据了49%的计算时间，加上softmax合计62%——词表相关计算成为真正瓶颈，而非Transformer层。
核心思路: 自然语言token频率呈长尾分布：25%的高频token覆盖95%的出现次数。限制draft模型只在高频子集上搜索可大幅降低计算开销。
关键优势: 方法无需重新训练draft模型，且保证了验证阶段的数学等价性，是真正的“免费午餐”加速。

FR-Spec是一个即插即用的频率排序投机采样框架，在draft阶段将LM Head的词表空间从完整词表 \(\mathcal{V}\) 压缩到高频子集 \(\mathcal{V}_{\text{high}}\)，验证阶段保持完整词表不变，从而保证最终输出分布的数学等价性。

语料级Token频率统计: 在SlimPajama-627B的1B token子集上统计词频分布，确认75%的词表token仅占5%的出现次数，呈显著长尾效应
频率排序词表裁剪: 构造子矩阵 \(\tilde{\mathbf{W}}_{\text{LM}} \in \mathbb{R}^{|\mathcal{V}_{\text{high}}| \times d}\)，将draft模型的LM Head投影从 \(O(nd|\mathcal{V}|)\) 降至 \(O(nd|\mathcal{V}_{\text{high}}|)\)，压缩比达 \(\frac{|\mathcal{V}|}{|\mathcal{V}_{\text{high}}|}\)
验证阶段不变性保证: 仅修改drafting过程，验证过程使用完整词表，确保最终采样分布与原始方法完全一致

方法	MT	Conv	RAG	Math	QA	Summ	Code	平均(加速比)
Vanilla	90.94	90.43	83.43	91.16	91.05	86.63	90.10	89.11 (1.00×)
EAGLE-2	176.79	203.41	168.05	209.88	166.60	167.12	175.11	180.99 (2.03×)
+FR 32k	195.60	227.68	184.85	243.36	190.27	188.14	183.19	201.87 (2.27×)

32K是最优平衡点: 词表从128K裁剪到32K时，平均接受长度仅下降6.7%，但drafting速度大幅提升，综合加速比最优（2.27× vs EAGLE-2的2.03×）
跨框架优势: 相比HuggingFace和SGLang实现的EAGLE-2，FR-Spec分别获得1.82×和1.42×的额外加速
频率统计源影响: SlimPajama（大规模预训练语料）的频率统计优于ShareGPT（指令数据），生成更好的高频子集
模型质量不受影响: HumanEval和GSM8K上的pass@1/accuracy与原始方法完全一致
随机采样同样有效: temperature=1时，FR-Spec相比EAGLE-2仍获得1.13×加速

总结: 一篇工程导向与理论洞察兼备的佳作。通过系统性的性能剖析揭示了大词表对投机采样的瓶颈，基于Zipf定律提出的频率排序词表裁剪方案简洁高效、即插即用，且严格保证输出等价性。对LLM推理部署具有直接的工程价值。