Vulnerability of LLMs to Vertically Aligned Text Manipulations¶
会议: ACL 2025
arXiv: 2410.20016
代码: 无
领域: robotics
关键词: LLM鲁棒性, 垂直文本格式, 文本分类, 对抗攻击, Tokenization
一句话总结¶
本文系统揭示了LLM对垂直排列文本输入的严重脆弱性:仅将少量关键词垂直排列即可导致文本分类准确率下降25-45个百分点,CoT推理无法缓解此问题,但精心设计的few-shot learning可有效恢复性能。
研究背景与动机¶
-
领域现状: 基于Transformer的LLM在文本分类任务上取得了卓越性能,被广泛用于情感分析、有害内容检测、垃圾信息过滤等关键应用场景。
-
现有痛点: 已有研究表明LLM对输入格式变化敏感(如换行、标点、词序),encoder-based模型(如BERT)已被证实对垂直文本格式存在脆弱性。但decoder-based LLM是否存在相同问题尚未被系统研究。
-
核心矛盾: 垂直排列的文本对人类来说易于理解,但可能严重误导模型。如果LLM无法识别垂直格式的关键词,恶意用户可利用此漏洞绕过有害内容检测系统。
-
本文要解决什么: 系统评估垂直文本格式对多种LLM在文本分类任务上的影响,分析根因,并探索缓解策略。
-
切入角度: 选择文本中的关键词进行垂直变换,模拟真实场景中可能的格式操纵攻击,覆盖闭源和开源模型。
-
核心idea一句话: LLM的Tokenization机制和预训练数据缺陷导致其无法理解垂直排列的文本,这构成了对内容审核等安全关键应用的现实威胁。
方法详解¶
整体框架¶
方法包含两个核心步骤:关键词选择(Word Selection)和词汇变换(Word Transformation),将选定的关键词从水平格式转为垂直格式,其余文本保持正常。
关键设计¶
1. 关键词选择(Word Selection)¶
- 做什么: 从文本中识别对分类最关键的词汇
- 核心思路: 使用基于prompt的LLM(GPT-4o-mini)作为评估器来提取关键词,避免传统贪心方法对每个词逐一评估的高成本
- 设计动机: 之前的方法(Rusert, 2024)用贪心法评估每个词对预测概率的影响,对LLM来说计算成本过高
2. 词汇变换(Word Transformation)¶
- 做什么: 将选定关键词垂直排列嵌入原始文本
- 核心思路: 五步流程——(1)分解句子为词列表并确定垂直高度;(2)初始化二维网格;(3)将垂直词字符逐行放置;(4)处理非垂直词的对齐;(5)生成最终格式化字符串
- 设计动机: 保持文本整体可读性(非垂直词保持水平),仅针对性地变换关键词
3. CoT推理尝试(失败的缓解策略)¶
- 做什么: 在prompt中加入"think step by step"引导模型推理
- 核心思路: 希望显式推理过程能帮助模型识别垂直格式
- 实际结果: CoT完全无法帮助模型识别垂直文本,准确率变化微乎其微(通常±3个百分点)
4. Few-Shot Learning(有效的缓解策略)¶
- 做什么: 提供3个包含详细分析的示例帮助模型学习
- 核心思路: 为每个示例精心构建分析过程,帮助模型学习识别和重构垂直格式文本
- 设计动机: 模型缺乏对垂直文本格式的"意识",需要通过示例建立这种认知
损失函数/训练策略¶
本文为评估性工作,不涉及训练。核心评估指标为分类准确率:\(\text{Accuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(y_i = \hat{y}_i)\)
实验关键数据¶
主实验¶
垂直文本对LLM准确率的影响(5个数据集,4个垂直词 / CoLA用2个):
| 模型 | SST-2 (原/垂直) | CoLA (原/垂直) | QNLI (原/垂直) | Rotten T. (原/垂直) | Jigsaw (原/垂直) |
|---|---|---|---|---|---|
| GPT-3.5 | 93/65 (↓28) | 80/47 (↓33) | 85/69 (↓16) | 92/57 (↓35) | 85/62 (↓23) |
| GPT-4 | 96/67 (↓29) | 90/49 (↓41) | 89/71 (↓18) | 93/64 (↓29) | 89/58 (↓31) |
| GPT-4o | 95/68 (↓27) | 87/47 (↓40) | 90/70 (↓20) | 90/65 (↓25) | 91/60 (↓31) |
| Llama3-8B | 89/61 (↓28) | 75/50 (↓25) | 83/62 (↓21) | 86/42 (↓44) | 88/58 (↓30) |
| Llama3.1-70B | 96/66 (↓30) | 84/50 (↓34) | 84/66 (↓18) | 92/63 (↓29) | 87/62 (↓25) |
| Qwen2-72B | 96/60 (↓36) | 84/50 (↓34) | 88/62 (↓26) | 93/59 (↓34) | 91/59 (↓32) |
消融实验¶
CoT对垂直文本分类的缓解效果(对比无CoT时的变化):
| 模型 | SST-2 | CoLA | QNLI | Rotten T. | Jigsaw |
|---|---|---|---|---|---|
| GPT-3.5 w/CoT | -4 | +3 | -10 | -4 | 0 |
| GPT-4 w/CoT | -1 | +2 | -3 | -4 | -2 |
| GPT-4o w/CoT | +3 | +5 | +4 | +1 | +6 |
| Llama3.1-8B w/CoT | +2 | +2 | +3 | +2 | -1 |
| Gemma2-27B w/CoT | +3 | +1 | 0 | +3 | -2 |
Few-Shot Learning的恢复效果(GPT系列,3-shot):GPT-4和GPT-4o使用3-shot后准确率恢复到接近正常输入水平。
关键发现¶
- 严重性: 垂直输入仅4个关键词即可导致准确率下降25-45个百分点,CoLA数据集下降高达41点
- 安全威胁: SST-2上负面文本识别率从91%降至24%,Jigsaw有害内容识别率从86%降至28%
- CoT无效: Chain-of-Thought推理对此问题几乎无帮助,变化幅度通常在±5个百分点内
- Few-Shot有效: 3-shot learning配合详细分析可将GPT-4/4o性能恢复至接近正常水平
- 根因分析: Tokenization将垂直词拆分为多个不相关token(如"vertical"从1个token变为15个),注意力矩阵中垂直词token与分类关键token丧失强关联
亮点与洞察¶
- 安全视角独特: 将格式操纵作为一种潜在攻击向量来研究,对内容审核系统的安全性提出了实际警示
- 根因分析深入: 从tokenization和attention矩阵两个层面揭示了脆弱性的底层机制
- 反直觉发现: CoT推理——通常被认为能增强理解力的方法——对此问题完全无效,模型根本"看不到"垂直文本
- 全面覆盖: 测试了12个模型(4闭源+8开源)×5个数据集,结论具有很强的普适性
局限性/可改进方向¶
- 未探索fine-tuning是否可根本解决此问题
- 仅评估了文本分类任务,未涵盖文本生成任务
- Few-shot方案需要为每个任务手动设计示例,实用性受限
- 未讨论在预训练阶段加入垂直文本数据是否可增强鲁棒性
- 可进一步研究其他非常规文本格式(对角线、螺旋形等)的影响
相关工作与启发¶
- Rusert (2024): 首先发现encoder-based模型对垂直文本的脆弱性,本文将其扩展到decoder-based LLM
- Sclar et al. (2024): 研究LLM对标点和换行的敏感性
- Dong et al. (2024): LLM的Jailbreak攻击,本文从格式操纵角度提供了新攻击面
- 启发: 现有LLM的鲁棒性评估可能远远不够,格式层面的攻击是一个被低估的威胁
评分¶
| 维度 | 评分 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 实验充分度 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 价值 | ⭐⭐⭐⭐ |