Silent Tokens, Loud Effects: Padding in LLMs¶
会议: NeurIPS 2025
arXiv: 2510.01238
代码: 有(参考实现)
领域: LLM效率 / AI安全
关键词: Padding Token, 鲁棒性, 安全对齐, 社会偏见, 推理部署
一句话总结¶
系统性研究了padding token在未被正确掩码时对LLM的影响,发现即使少量padding也会漂移隐层表示、降低生成质量、不可预测地改变偏见,而128个padding token可将Llama-3.1-8B的有害提示攻击成功率从8%飙升到77.5%,本质上实现了jailbreak。
研究背景与动机¶
-
领域现状:Padding token在批量推理中广泛使用以对齐序列长度,理论上应通过attention mask完全屏蔽,不影响计算。
-
现有痛点:实践中这个假设经常被违反。Hugging Face的transformers库中如果不显式传入attention_mask,padding会被当作真实输入处理。对decoder-only模型使用右侧padding、将[EOS]复用为pad token等做法也会悄悄破坏生成。这些不是罕见的边界情况——在需要批量处理的生产管道中,padding误处理是常见的隐患。
-
核心矛盾:padding被普遍认为是一个"无害的技术细节",但没有人系统研究过padding在被错误处理时到底会产生多大的影响——特别是在安全性和公平性这些关键维度上。
-
本文要解决什么? 从四个维度(激活表示、生成质量、社会偏见、安全性)系统量化padding token对LLM行为的影响。
-
切入角度:控制实验设计——在输入前面prepend不同数量的padding token(0到128个),故意让它们参与计算(模拟常见的mask遗漏错误),观察模型行为变化。
-
核心idea一句话:Padding不是无害的,它会漂移激活空间、降质量、改偏见、破对齐,本质上是一个被低估的部署鲁棒性风险。
方法详解¶
整体框架¶
给定输入 \(x = \langle t_1, \ldots, t_m \rangle\),构造padding变体 \(x_{(k)} = \langle \underbrace{[\text{PAD}], \ldots, [\text{PAD}]}_{k}, t_1, \ldots, t_m \rangle\),其中 \(k \in \{0, 1, 2, 4, 8, 16, 32, 128\}\)。显式传入将pad视为有效输入的attention_mask。在四个维度上评估影响。
关键设计¶
- 激活漂移分析:
- 做什么:计算原始输入和padding变体在每层的隐层表示余弦相似度,以及有害/无害提示的聚类Silhouette分数
- 核心发现:Llama-2-7B/13B和Qwen-1.8B在少量padding下就出现显著的激活漂移(相似度急剧下降)。有害/无害提示的聚类边界随padding增多而模糊——这直接威胁基于激活空间的安全检测方法
-
PCA可视化清晰展示:128个padding后,有害提示和无害提示的表示空间几乎完全混杂
-
生成质量退化:
- 做什么:在TruthfulQA上用BLEU和BERTScore评估padding对生成质量的影响
-
核心发现:老模型(Llama-2)和小模型(Qwen-1.8B)在4+个padding后生成质量剧烈下降。Gemma系列表现出最强的抗padding能力,甚至在某些情况下性能略有提升
-
社会偏见变化:
- 做什么:在BBQ偏见基准上测试padding对人口统计学偏见的影响
-
核心发现:偏见变化是不可预测且类别依赖的——年龄偏见随padding减少,但外貌偏见先增后减。同一个模型在不同偏见类别和上下文类型(歧义/非歧义)上的反应完全不同
-
安全性突破:
- 做什么:用HarmBench的200个有害提示测试攻击成功率(ASR),用Llama-Guard-3-8B做回复分类
- 核心发现:Llama-3.1-8B在0个padding时ASR仅8%,32个padding时12%,但128个padding时飙升至77.5%——padding实质上成为了一种jailbreak方法
- 这与Yu et al.的发现一致:在有害提示附近添加多个特殊token可以将提示沿"拒绝方向"的反方向推移
实验关键数据¶
安全性主实验(Llama-3.1-8B,HarmBench)¶
| Padding数量 | 攻击成功率(ASR) | 说明 |
|---|---|---|
| 0 | 8.0% | 正常安全 |
| 1 | 7.5% | 基本无影响 |
| 4 | 4.5% | 略有下降 |
| 16 | 8.5% | 开始回升 |
| 32 | 12.0% | 明显恶化 |
| 128 | 77.5% | 近乎完全突破 |
生成质量(BERTScore趋势)¶
| 模型 | 0 pad | 8 pad | 128 pad | 说明 |
|---|---|---|---|---|
| Llama-2-7B | ~0.88 | ~0.78 | ~0.50 | 严重退化 |
| Llama-3.1-8B | ~0.88 | ~0.87 | ~0.85 | 较为稳健 |
| Gemma-2-9B | ~0.88 | ~0.88 | ~0.88 | 几乎无影响 |
| Qwen-1.8B | ~0.82 | ~0.72 | ~0.55 | 小模型脆弱 |
关键发现¶
- 模型代际差异显著:Llama-3.x比Llama-2对padding鲁棒得多,说明新版训练可能隐式改善了这一问题
- 模型家族差异:Gemma系列对padding最鲁棒,Qwen小模型最脆弱
- 128个padding的jailbreak效果惊人,且不需要任何精心设计的对抗提示——纯粹的"无意义"token就能破坏对齐
- 偏见变化的不可预测性是最令人担忧的——无法简单地说"padding增多=偏见增大"
亮点与洞察¶
- padding作为jailbreak向量的发现意义重大:它揭示了当前LLM对齐的脆弱性不仅来自精心设计的对抗攻击,甚至来自看似无害的基础设施层面的小疏忽
- PCA可视化非常直观:展示了padding如何逐步混淆有害/无害提示的激活空间边界,这为基于激活的安全检测方法敲响了警钟
- 跨模型家族的全面对比有实际价值:告诉部署者哪些模型对padding更鲁棒
局限性 / 可改进方向¶
- 只测试了左侧padding(decoder-only模型的常规做法),右侧padding和encoder模型的情况未覆盖
- 未探索专门针对padding鲁棒性的训练/微调方法——只诊断了问题而未提供解决方案
- 偏见分析只在Llama-3.1-8B上展示了详细结果,其他模型未充分分析
- 安全性测试只用了一个模型(Llama-3.1-8B),未验证padding jailbreak对其他模型家族的效果
- 实验规模有限(128-200个样本),统计显著性可能不足
相关工作与启发¶
- vs Yu et al. (2025):Yu et al.发现添加特殊token可以沿拒绝方向推移提示。本文的padding jailbreak是这一发现的自然延伸和系统验证
- vs Arditi et al. (2024):Arditi发现拒绝行为由单一方向调控。本文PCA可视化表明padding正是通过扰乱这个方向来破坏对齐的
- 对部署的启示:任何LLM部署管道都必须确保padding被严格掩码;基于激活空间的安全检测方法需要考虑padding鲁棒性
评分¶
- 新颖性: ⭐⭐⭐⭐ 发现简单的padding就能jailbreak是令人惊讶的,但主要是系统性调查而非新方法
- 实验充分度: ⭐⭐⭐ 覆盖了4个维度和10个模型,但样本量偏小,部分分析只展示了单模型结果
- 写作质量: ⭐⭐⭐⭐ 实验设计清晰,可视化有效,但作为workshop paper篇幅有限
- 价值: ⭐⭐⭐⭐⭐ 对LLM部署有直接的实际指导意义,padding鲁棒性应成为标准评估维度