跳转至

Vulnerability of LLMs to Vertically Aligned Text Manipulations

会议: ACL 2025
arXiv: 2410.20016
代码: 无
领域: robotics
关键词: LLM鲁棒性, 垂直文本格式, 文本分类, 对抗攻击, Tokenization

一句话总结

本文系统揭示了LLM对垂直排列文本输入的严重脆弱性:仅将少量关键词垂直排列即可导致文本分类准确率下降25-45个百分点,CoT推理无法缓解此问题,但精心设计的few-shot learning可有效恢复性能。

研究背景与动机

  1. 领域现状: 基于Transformer的LLM在文本分类任务上取得了卓越性能,被广泛用于情感分析、有害内容检测、垃圾信息过滤等关键应用场景。

  2. 现有痛点: 已有研究表明LLM对输入格式变化敏感(如换行、标点、词序),encoder-based模型(如BERT)已被证实对垂直文本格式存在脆弱性。但decoder-based LLM是否存在相同问题尚未被系统研究。

  3. 核心矛盾: 垂直排列的文本对人类来说易于理解,但可能严重误导模型。如果LLM无法识别垂直格式的关键词,恶意用户可利用此漏洞绕过有害内容检测系统。

  4. 本文要解决什么: 系统评估垂直文本格式对多种LLM在文本分类任务上的影响,分析根因,并探索缓解策略。

  5. 切入角度: 选择文本中的关键词进行垂直变换,模拟真实场景中可能的格式操纵攻击,覆盖闭源和开源模型。

  6. 核心idea一句话: LLM的Tokenization机制和预训练数据缺陷导致其无法理解垂直排列的文本,这构成了对内容审核等安全关键应用的现实威胁。

方法详解

整体框架

方法包含两个核心步骤:关键词选择(Word Selection)和词汇变换(Word Transformation),将选定的关键词从水平格式转为垂直格式,其余文本保持正常。

关键设计

1. 关键词选择(Word Selection)

  • 做什么: 从文本中识别对分类最关键的词汇
  • 核心思路: 使用基于prompt的LLM(GPT-4o-mini)作为评估器来提取关键词,避免传统贪心方法对每个词逐一评估的高成本
  • 设计动机: 之前的方法(Rusert, 2024)用贪心法评估每个词对预测概率的影响,对LLM来说计算成本过高

2. 词汇变换(Word Transformation)

  • 做什么: 将选定关键词垂直排列嵌入原始文本
  • 核心思路: 五步流程——(1)分解句子为词列表并确定垂直高度;(2)初始化二维网格;(3)将垂直词字符逐行放置;(4)处理非垂直词的对齐;(5)生成最终格式化字符串
  • 设计动机: 保持文本整体可读性(非垂直词保持水平),仅针对性地变换关键词

3. CoT推理尝试(失败的缓解策略)

  • 做什么: 在prompt中加入"think step by step"引导模型推理
  • 核心思路: 希望显式推理过程能帮助模型识别垂直格式
  • 实际结果: CoT完全无法帮助模型识别垂直文本,准确率变化微乎其微(通常±3个百分点)

4. Few-Shot Learning(有效的缓解策略)

  • 做什么: 提供3个包含详细分析的示例帮助模型学习
  • 核心思路: 为每个示例精心构建分析过程,帮助模型学习识别和重构垂直格式文本
  • 设计动机: 模型缺乏对垂直文本格式的"意识",需要通过示例建立这种认知

损失函数/训练策略

本文为评估性工作,不涉及训练。核心评估指标为分类准确率:\(\text{Accuracy} = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}(y_i = \hat{y}_i)\)

实验关键数据

主实验

垂直文本对LLM准确率的影响(5个数据集,4个垂直词 / CoLA用2个):

模型 SST-2 (原/垂直) CoLA (原/垂直) QNLI (原/垂直) Rotten T. (原/垂直) Jigsaw (原/垂直)
GPT-3.5 93/65 (↓28) 80/47 (↓33) 85/69 (↓16) 92/57 (↓35) 85/62 (↓23)
GPT-4 96/67 (↓29) 90/49 (↓41) 89/71 (↓18) 93/64 (↓29) 89/58 (↓31)
GPT-4o 95/68 (↓27) 87/47 (↓40) 90/70 (↓20) 90/65 (↓25) 91/60 (↓31)
Llama3-8B 89/61 (↓28) 75/50 (↓25) 83/62 (↓21) 86/42 (↓44) 88/58 (↓30)
Llama3.1-70B 96/66 (↓30) 84/50 (↓34) 84/66 (↓18) 92/63 (↓29) 87/62 (↓25)
Qwen2-72B 96/60 (↓36) 84/50 (↓34) 88/62 (↓26) 93/59 (↓34) 91/59 (↓32)

消融实验

CoT对垂直文本分类的缓解效果(对比无CoT时的变化)

模型 SST-2 CoLA QNLI Rotten T. Jigsaw
GPT-3.5 w/CoT -4 +3 -10 -4 0
GPT-4 w/CoT -1 +2 -3 -4 -2
GPT-4o w/CoT +3 +5 +4 +1 +6
Llama3.1-8B w/CoT +2 +2 +3 +2 -1
Gemma2-27B w/CoT +3 +1 0 +3 -2

Few-Shot Learning的恢复效果(GPT系列,3-shot):GPT-4和GPT-4o使用3-shot后准确率恢复到接近正常输入水平。

关键发现

  1. 严重性: 垂直输入仅4个关键词即可导致准确率下降25-45个百分点,CoLA数据集下降高达41点
  2. 安全威胁: SST-2上负面文本识别率从91%降至24%,Jigsaw有害内容识别率从86%降至28%
  3. CoT无效: Chain-of-Thought推理对此问题几乎无帮助,变化幅度通常在±5个百分点内
  4. Few-Shot有效: 3-shot learning配合详细分析可将GPT-4/4o性能恢复至接近正常水平
  5. 根因分析: Tokenization将垂直词拆分为多个不相关token(如"vertical"从1个token变为15个),注意力矩阵中垂直词token与分类关键token丧失强关联

亮点与洞察

  1. 安全视角独特: 将格式操纵作为一种潜在攻击向量来研究,对内容审核系统的安全性提出了实际警示
  2. 根因分析深入: 从tokenization和attention矩阵两个层面揭示了脆弱性的底层机制
  3. 反直觉发现: CoT推理——通常被认为能增强理解力的方法——对此问题完全无效,模型根本"看不到"垂直文本
  4. 全面覆盖: 测试了12个模型(4闭源+8开源)×5个数据集,结论具有很强的普适性

局限性/可改进方向

  1. 未探索fine-tuning是否可根本解决此问题
  2. 仅评估了文本分类任务,未涵盖文本生成任务
  3. Few-shot方案需要为每个任务手动设计示例,实用性受限
  4. 未讨论在预训练阶段加入垂直文本数据是否可增强鲁棒性
  5. 可进一步研究其他非常规文本格式(对角线、螺旋形等)的影响

相关工作与启发

  • Rusert (2024): 首先发现encoder-based模型对垂直文本的脆弱性,本文将其扩展到decoder-based LLM
  • Sclar et al. (2024): 研究LLM对标点和换行的敏感性
  • Dong et al. (2024): LLM的Jailbreak攻击,本文从格式操纵角度提供了新攻击面
  • 启发: 现有LLM的鲁棒性评估可能远远不够,格式层面的攻击是一个被低估的威胁

评分

维度 评分
新颖性 ⭐⭐⭐⭐
实验充分度 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
价值 ⭐⭐⭐⭐