Vulnerability of LLMs to Vertically Aligned Text Manipulations¶

会议: ACL 2025
arXiv: 2410.20016
代码: 无
领域: robotics
关键词: LLM鲁棒性, 垂直文本格式, 文本分类, 对抗攻击, Tokenization

一句话总结¶

本文系统揭示了LLM对垂直排列文本输入的严重脆弱性：仅将少量关键词垂直排列即可导致文本分类准确率下降25-45个百分点，CoT推理无法缓解此问题，但精心设计的few-shot learning可有效恢复性能。

研究背景与动机¶

领域现状: 基于Transformer的LLM在文本分类任务上取得了卓越性能，被广泛用于情感分析、有害内容检测、垃圾信息过滤等关键应用场景。
现有痛点: 已有研究表明LLM对输入格式变化敏感（如换行、标点、词序），encoder-based模型（如BERT）已被证实对垂直文本格式存在脆弱性。但decoder-based LLM是否存在相同问题尚未被系统研究。
核心矛盾: 垂直排列的文本对人类来说易于理解，但可能严重误导模型。如果LLM无法识别垂直格式的关键词，恶意用户可利用此漏洞绕过有害内容检测系统。
本文要解决什么: 系统评估垂直文本格式对多种LLM在文本分类任务上的影响，分析根因，并探索缓解策略。
切入角度: 选择文本中的关键词进行垂直变换，模拟真实场景中可能的格式操纵攻击，覆盖闭源和开源模型。
核心idea一句话: LLM的Tokenization机制和预训练数据缺陷导致其无法理解垂直排列的文本，这构成了对内容审核等安全关键应用的现实威胁。

方法详解¶

整体框架¶

方法包含两个核心步骤：关键词选择（Word Selection）和词汇变换（Word Transformation），将选定的关键词从水平格式转为垂直格式，其余文本保持正常。

关键设计¶

1. 关键词选择（Word Selection）¶

做什么: 从文本中识别对分类最关键的词汇
核心思路: 使用基于prompt的LLM（GPT-4o-mini）作为评估器来提取关键词，避免传统贪心方法对每个词逐一评估的高成本
设计动机: 之前的方法（Rusert, 2024）用贪心法评估每个词对预测概率的影响，对LLM来说计算成本过高

2. 词汇变换（Word Transformation）¶

做什么: 将选定关键词垂直排列嵌入原始文本
核心思路: 五步流程——（1）分解句子为词列表并确定垂直高度；（2）初始化二维网格；（3）将垂直词字符逐行放置；（4）处理非垂直词的对齐；（5）生成最终格式化字符串
设计动机: 保持文本整体可读性（非垂直词保持水平），仅针对性地变换关键词

3. CoT推理尝试（失败的缓解策略）¶

做什么: 在prompt中加入"think step by step"引导模型推理
核心思路: 希望显式推理过程能帮助模型识别垂直格式
实际结果: CoT完全无法帮助模型识别垂直文本，准确率变化微乎其微（通常±3个百分点）

4. Few-Shot Learning（有效的缓解策略）¶

做什么: 提供3个包含详细分析的示例帮助模型学习
核心思路: 为每个示例精心构建分析过程，帮助模型学习识别和重构垂直格式文本
设计动机: 模型缺乏对垂直文本格式的"意识"，需要通过示例建立这种认知

损失函数/训练策略¶

本文为评估性工作，不涉及训练。核心评估指标为分类准确率：\(\text{Accuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(y_i = \hat{y}_i)\)

实验关键数据¶

主实验¶

垂直文本对LLM准确率的影响（5个数据集，4个垂直词 / CoLA用2个）：

模型	SST-2 (原/垂直)	CoLA (原/垂直)	QNLI (原/垂直)	Rotten T. (原/垂直)	Jigsaw (原/垂直)
GPT-3.5	93/65 (↓28)	80/47 (↓33)	85/69 (↓16)	92/57 (↓35)	85/62 (↓23)
GPT-4	96/67 (↓29)	90/49 (↓41)	89/71 (↓18)	93/64 (↓29)	89/58 (↓31)
GPT-4o	95/68 (↓27)	87/47 (↓40)	90/70 (↓20)	90/65 (↓25)	91/60 (↓31)
Llama3-8B	89/61 (↓28)	75/50 (↓25)	83/62 (↓21)	86/42 (↓44)	88/58 (↓30)
Llama3.1-70B	96/66 (↓30)	84/50 (↓34)	84/66 (↓18)	92/63 (↓29)	87/62 (↓25)
Qwen2-72B	96/60 (↓36)	84/50 (↓34)	88/62 (↓26)	93/59 (↓34)	91/59 (↓32)

消融实验¶

CoT对垂直文本分类的缓解效果（对比无CoT时的变化）：

模型	SST-2	CoLA	QNLI	Rotten T.	Jigsaw
GPT-3.5 w/CoT	-4	+3	-10	-4	0
GPT-4 w/CoT	-1	+2	-3	-4	-2
GPT-4o w/CoT	+3	+5	+4	+1	+6
Llama3.1-8B w/CoT	+2	+2	+3	+2	-1
Gemma2-27B w/CoT	+3	+1	0	+3	-2

Few-Shot Learning的恢复效果（GPT系列，3-shot）：GPT-4和GPT-4o使用3-shot后准确率恢复到接近正常输入水平。

关键发现¶

严重性: 垂直输入仅4个关键词即可导致准确率下降25-45个百分点，CoLA数据集下降高达41点
安全威胁: SST-2上负面文本识别率从91%降至24%，Jigsaw有害内容识别率从86%降至28%
CoT无效: Chain-of-Thought推理对此问题几乎无帮助，变化幅度通常在±5个百分点内
Few-Shot有效: 3-shot learning配合详细分析可将GPT-4/4o性能恢复至接近正常水平
根因分析: Tokenization将垂直词拆分为多个不相关token（如"vertical"从1个token变为15个），注意力矩阵中垂直词token与分类关键token丧失强关联

亮点与洞察¶

安全视角独特: 将格式操纵作为一种潜在攻击向量来研究，对内容审核系统的安全性提出了实际警示
根因分析深入: 从tokenization和attention矩阵两个层面揭示了脆弱性的底层机制
反直觉发现: CoT推理——通常被认为能增强理解力的方法——对此问题完全无效，模型根本"看不到"垂直文本
全面覆盖: 测试了12个模型（4闭源+8开源）×5个数据集，结论具有很强的普适性

局限性/可改进方向¶

未探索fine-tuning是否可根本解决此问题
仅评估了文本分类任务，未涵盖文本生成任务
Few-shot方案需要为每个任务手动设计示例，实用性受限
未讨论在预训练阶段加入垂直文本数据是否可增强鲁棒性
可进一步研究其他非常规文本格式（对角线、螺旋形等）的影响

评分¶

维度	评分
新颖性	⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
价值	⭐⭐⭐⭐