Silent Tokens, Loud Effects: Padding in LLMs¶

会议: NeurIPS 2025
arXiv: 2510.01238
代码: 有（参考实现）
领域: LLM效率 / AI安全
关键词: Padding Token, 鲁棒性, 安全对齐, 社会偏见, 推理部署

一句话总结¶

系统性研究了padding token在未被正确掩码时对LLM的影响，发现即使少量padding也会漂移隐层表示、降低生成质量、不可预测地改变偏见，而128个padding token可将Llama-3.1-8B的有害提示攻击成功率从8%飙升到77.5%，本质上实现了jailbreak。

研究背景与动机¶

领域现状：Padding token在批量推理中广泛使用以对齐序列长度，理论上应通过attention mask完全屏蔽，不影响计算。
现有痛点：实践中这个假设经常被违反。Hugging Face的transformers库中如果不显式传入attention_mask，padding会被当作真实输入处理。对decoder-only模型使用右侧padding、将[EOS]复用为pad token等做法也会悄悄破坏生成。这些不是罕见的边界情况——在需要批量处理的生产管道中，padding误处理是常见的隐患。
核心矛盾：padding被普遍认为是一个"无害的技术细节"，但没有人系统研究过padding在被错误处理时到底会产生多大的影响——特别是在安全性和公平性这些关键维度上。
本文要解决什么？ 从四个维度（激活表示、生成质量、社会偏见、安全性）系统量化padding token对LLM行为的影响。
切入角度：控制实验设计——在输入前面prepend不同数量的padding token（0到128个），故意让它们参与计算（模拟常见的mask遗漏错误），观察模型行为变化。
核心idea一句话：Padding不是无害的，它会漂移激活空间、降质量、改偏见、破对齐，本质上是一个被低估的部署鲁棒性风险。

方法详解¶

整体框架¶

给定输入 \(x = \langle t_1, \ldots, t_m \rangle\)，构造padding变体 \(x_{(k)} = \langle \underbrace{[\text{PAD}], \ldots, [\text{PAD}]}_{k}, t_1, \ldots, t_m \rangle\)，其中 \(k \in \{0, 1, 2, 4, 8, 16, 32, 128\}\)。显式传入将pad视为有效输入的attention_mask。在四个维度上评估影响。

关键设计¶

激活漂移分析：
做什么：计算原始输入和padding变体在每层的隐层表示余弦相似度，以及有害/无害提示的聚类Silhouette分数
核心发现：Llama-2-7B/13B和Qwen-1.8B在少量padding下就出现显著的激活漂移（相似度急剧下降）。有害/无害提示的聚类边界随padding增多而模糊——这直接威胁基于激活空间的安全检测方法
PCA可视化清晰展示：128个padding后，有害提示和无害提示的表示空间几乎完全混杂
生成质量退化：
做什么：在TruthfulQA上用BLEU和BERTScore评估padding对生成质量的影响
核心发现：老模型（Llama-2）和小模型（Qwen-1.8B）在4+个padding后生成质量剧烈下降。Gemma系列表现出最强的抗padding能力，甚至在某些情况下性能略有提升
社会偏见变化：
做什么：在BBQ偏见基准上测试padding对人口统计学偏见的影响
核心发现：偏见变化是不可预测且类别依赖的——年龄偏见随padding减少，但外貌偏见先增后减。同一个模型在不同偏见类别和上下文类型（歧义/非歧义）上的反应完全不同
安全性突破：
做什么：用HarmBench的200个有害提示测试攻击成功率（ASR），用Llama-Guard-3-8B做回复分类
核心发现：Llama-3.1-8B在0个padding时ASR仅8%，32个padding时12%，但128个padding时飙升至77.5%——padding实质上成为了一种jailbreak方法
这与Yu et al.的发现一致：在有害提示附近添加多个特殊token可以将提示沿"拒绝方向"的反方向推移

实验关键数据¶

安全性主实验（Llama-3.1-8B，HarmBench）¶

Padding数量	攻击成功率(ASR)	说明
0	8.0%	正常安全
1	7.5%	基本无影响
4	4.5%	略有下降
16	8.5%	开始回升
32	12.0%	明显恶化
128	77.5%	近乎完全突破

生成质量（BERTScore趋势）¶

模型	0 pad	8 pad	128 pad	说明
Llama-2-7B	~0.88	~0.78	~0.50	严重退化
Llama-3.1-8B	~0.88	~0.87	~0.85	较为稳健
Gemma-2-9B	~0.88	~0.88	~0.88	几乎无影响
Qwen-1.8B	~0.82	~0.72	~0.55	小模型脆弱

关键发现¶

模型代际差异显著：Llama-3.x比Llama-2对padding鲁棒得多，说明新版训练可能隐式改善了这一问题
模型家族差异：Gemma系列对padding最鲁棒，Qwen小模型最脆弱
128个padding的jailbreak效果惊人，且不需要任何精心设计的对抗提示——纯粹的"无意义"token就能破坏对齐
偏见变化的不可预测性是最令人担忧的——无法简单地说"padding增多=偏见增大"

亮点与洞察¶

padding作为jailbreak向量的发现意义重大：它揭示了当前LLM对齐的脆弱性不仅来自精心设计的对抗攻击，甚至来自看似无害的基础设施层面的小疏忽
PCA可视化非常直观：展示了padding如何逐步混淆有害/无害提示的激活空间边界，这为基于激活的安全检测方法敲响了警钟
跨模型家族的全面对比有实际价值：告诉部署者哪些模型对padding更鲁棒

局限性 / 可改进方向¶

只测试了左侧padding（decoder-only模型的常规做法），右侧padding和encoder模型的情况未覆盖
未探索专门针对padding鲁棒性的训练/微调方法——只诊断了问题而未提供解决方案
偏见分析只在Llama-3.1-8B上展示了详细结果，其他模型未充分分析
安全性测试只用了一个模型（Llama-3.1-8B），未验证padding jailbreak对其他模型家族的效果
实验规模有限（128-200个样本），统计显著性可能不足

评分¶

新颖性: ⭐⭐⭐⭐ 发现简单的padding就能jailbreak是令人惊讶的，但主要是系统性调查而非新方法
实验充分度: ⭐⭐⭐ 覆盖了4个维度和10个模型，但样本量偏小，部分分析只展示了单模型结果
写作质量: ⭐⭐⭐⭐ 实验设计清晰，可视化有效，但作为workshop paper篇幅有限
价值: ⭐⭐⭐⭐⭐ 对LLM部署有直接的实际指导意义，padding鲁棒性应成为标准评估维度