跳转至

Silent Tokens, Loud Effects: Padding in LLMs

会议: NeurIPS 2025
arXiv: 2510.01238
代码: 有(参考实现)
领域: LLM效率 / AI安全
关键词: Padding Token, 鲁棒性, 安全对齐, 社会偏见, 推理部署

一句话总结

系统性研究了padding token在未被正确掩码时对LLM的影响,发现即使少量padding也会漂移隐层表示、降低生成质量、不可预测地改变偏见,而128个padding token可将Llama-3.1-8B的有害提示攻击成功率从8%飙升到77.5%,本质上实现了jailbreak。

研究背景与动机

  1. 领域现状:Padding token在批量推理中广泛使用以对齐序列长度,理论上应通过attention mask完全屏蔽,不影响计算。

  2. 现有痛点:实践中这个假设经常被违反。Hugging Face的transformers库中如果不显式传入attention_mask,padding会被当作真实输入处理。对decoder-only模型使用右侧padding、将[EOS]复用为pad token等做法也会悄悄破坏生成。这些不是罕见的边界情况——在需要批量处理的生产管道中,padding误处理是常见的隐患。

  3. 核心矛盾:padding被普遍认为是一个"无害的技术细节",但没有人系统研究过padding在被错误处理时到底会产生多大的影响——特别是在安全性和公平性这些关键维度上。

  4. 本文要解决什么? 从四个维度(激活表示、生成质量、社会偏见、安全性)系统量化padding token对LLM行为的影响。

  5. 切入角度:控制实验设计——在输入前面prepend不同数量的padding token(0到128个),故意让它们参与计算(模拟常见的mask遗漏错误),观察模型行为变化。

  6. 核心idea一句话:Padding不是无害的,它会漂移激活空间、降质量、改偏见、破对齐,本质上是一个被低估的部署鲁棒性风险。

方法详解

整体框架

给定输入 \(x = \langle t_1, \ldots, t_m \rangle\),构造padding变体 \(x_{(k)} = \langle \underbrace{[\text{PAD}], \ldots, [\text{PAD}]}_{k}, t_1, \ldots, t_m \rangle\),其中 \(k \in \{0, 1, 2, 4, 8, 16, 32, 128\}\)。显式传入将pad视为有效输入的attention_mask。在四个维度上评估影响。

关键设计

  1. 激活漂移分析
  2. 做什么:计算原始输入和padding变体在每层的隐层表示余弦相似度,以及有害/无害提示的聚类Silhouette分数
  3. 核心发现:Llama-2-7B/13B和Qwen-1.8B在少量padding下就出现显著的激活漂移(相似度急剧下降)。有害/无害提示的聚类边界随padding增多而模糊——这直接威胁基于激活空间的安全检测方法
  4. PCA可视化清晰展示:128个padding后,有害提示和无害提示的表示空间几乎完全混杂

  5. 生成质量退化

  6. 做什么:在TruthfulQA上用BLEU和BERTScore评估padding对生成质量的影响
  7. 核心发现:老模型(Llama-2)和小模型(Qwen-1.8B)在4+个padding后生成质量剧烈下降。Gemma系列表现出最强的抗padding能力,甚至在某些情况下性能略有提升

  8. 社会偏见变化

  9. 做什么:在BBQ偏见基准上测试padding对人口统计学偏见的影响
  10. 核心发现:偏见变化是不可预测且类别依赖的——年龄偏见随padding减少,但外貌偏见先增后减。同一个模型在不同偏见类别和上下文类型(歧义/非歧义)上的反应完全不同

  11. 安全性突破

  12. 做什么:用HarmBench的200个有害提示测试攻击成功率(ASR),用Llama-Guard-3-8B做回复分类
  13. 核心发现:Llama-3.1-8B在0个padding时ASR仅8%,32个padding时12%,但128个padding时飙升至77.5%——padding实质上成为了一种jailbreak方法
  14. 这与Yu et al.的发现一致:在有害提示附近添加多个特殊token可以将提示沿"拒绝方向"的反方向推移

实验关键数据

安全性主实验(Llama-3.1-8B,HarmBench)

Padding数量 攻击成功率(ASR) 说明
0 8.0% 正常安全
1 7.5% 基本无影响
4 4.5% 略有下降
16 8.5% 开始回升
32 12.0% 明显恶化
128 77.5% 近乎完全突破

生成质量(BERTScore趋势)

模型 0 pad 8 pad 128 pad 说明
Llama-2-7B ~0.88 ~0.78 ~0.50 严重退化
Llama-3.1-8B ~0.88 ~0.87 ~0.85 较为稳健
Gemma-2-9B ~0.88 ~0.88 ~0.88 几乎无影响
Qwen-1.8B ~0.82 ~0.72 ~0.55 小模型脆弱

关键发现

  • 模型代际差异显著:Llama-3.x比Llama-2对padding鲁棒得多,说明新版训练可能隐式改善了这一问题
  • 模型家族差异:Gemma系列对padding最鲁棒,Qwen小模型最脆弱
  • 128个padding的jailbreak效果惊人,且不需要任何精心设计的对抗提示——纯粹的"无意义"token就能破坏对齐
  • 偏见变化的不可预测性是最令人担忧的——无法简单地说"padding增多=偏见增大"

亮点与洞察

  • padding作为jailbreak向量的发现意义重大:它揭示了当前LLM对齐的脆弱性不仅来自精心设计的对抗攻击,甚至来自看似无害的基础设施层面的小疏忽
  • PCA可视化非常直观:展示了padding如何逐步混淆有害/无害提示的激活空间边界,这为基于激活的安全检测方法敲响了警钟
  • 跨模型家族的全面对比有实际价值:告诉部署者哪些模型对padding更鲁棒

局限性 / 可改进方向

  • 只测试了左侧padding(decoder-only模型的常规做法),右侧padding和encoder模型的情况未覆盖
  • 未探索专门针对padding鲁棒性的训练/微调方法——只诊断了问题而未提供解决方案
  • 偏见分析只在Llama-3.1-8B上展示了详细结果,其他模型未充分分析
  • 安全性测试只用了一个模型(Llama-3.1-8B),未验证padding jailbreak对其他模型家族的效果
  • 实验规模有限(128-200个样本),统计显著性可能不足

相关工作与启发

  • vs Yu et al. (2025):Yu et al.发现添加特殊token可以沿拒绝方向推移提示。本文的padding jailbreak是这一发现的自然延伸和系统验证
  • vs Arditi et al. (2024):Arditi发现拒绝行为由单一方向调控。本文PCA可视化表明padding正是通过扰乱这个方向来破坏对齐的
  • 对部署的启示:任何LLM部署管道都必须确保padding被严格掩码;基于激活空间的安全检测方法需要考虑padding鲁棒性

评分

  • 新颖性: ⭐⭐⭐⭐ 发现简单的padding就能jailbreak是令人惊讶的,但主要是系统性调查而非新方法
  • 实验充分度: ⭐⭐⭐ 覆盖了4个维度和10个模型,但样本量偏小,部分分析只展示了单模型结果
  • 写作质量: ⭐⭐⭐⭐ 实验设计清晰,可视化有效,但作为workshop paper篇幅有限
  • 价值: ⭐⭐⭐⭐⭐ 对LLM部署有直接的实际指导意义,padding鲁棒性应成为标准评估维度