跳转至

Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding

会议: ACL 2025
arXiv: 2406.15481
代码: https://github.com/haneul-yoo/csrt
领域: AI安全 / 多语言NLP
关键词: 语码转换, 红队测试, LLM安全, 多语言理解, 安全对齐

一句话总结

本文提出 CSRT(Code-Switching Red-Teaming)框架,利用日常生活中常见的语码转换(code-switching)现象来构造多语言混合的红队攻击查询,成功在 10 个主流 LLM 上发现了严重的安全漏洞,攻击成功率比标准英语攻击高出 46.7%,揭示了当前 LLM 安全对齐在多语言场景下的脆弱性。

研究背景与动机

领域现状:随着 LLM 能力的快速提升,安全性问题日益突出。研究社区开发了各种红队攻击(red-teaming)技术来评估和暴露 LLM 的安全漏洞,包括越狱提示(jailbreak)、对抗性攻击等。

现有痛点:现有的多语言红队技术大多采用简单的翻译策略——将英语攻击查询直接翻译成其他语言。这种方法有两个问题:(1) 翻译可能不自然,容易被安全过滤器检测;(2) 没有充分利用多语言混合这一自然语言现象的攻击潜力。更关键的是,现有评估基准过度依赖人工标注,难以规模化。

核心矛盾:LLM 的安全对齐主要在英语上训练和评估,而真实世界中双语/多语用户自然地在对话中混合使用多种语言(语码转换)。这种常见的自然语言实践被安全训练忽略,形成了一个系统性的安全盲区。

本文目标:(1) 构建一个利用语码转换的自动化红队攻击框架;(2) 全面评估主流 LLM 在面对 CS 攻击时的安全性和多语言理解能力;(3) 分析影响攻击成功率的关键因素。

切入角度:作者观察到,当一句有害查询中的不同部分使用不同语言表达时,LLM 的安全过滤器可能无法识别完整的有害意图,因为对齐训练主要基于单语数据。

核心 idea:利用 CS 作为一种自然、合法的语言实践来绕过 LLM 的安全机制,同时对多语言理解能力进行压力测试。

方法详解

整体框架

CSRT 框架分为三个阶段:(1) 查询生成:基于有害查询模板,利用句法解析自动将查询的不同成分替换为不同语言,生成 CS 红队查询;(2) 模型测试:将 CS 查询输入目标 LLM 并收集响应;(3) 自动评估:使用多维度评估框架判断响应是否有害以及模型是否正确理解了 CS 输入。

关键设计

  1. 语码转换查询合成(CS Query Synthesis):

    • 功能:自动生成多语言混合的红队攻击查询
    • 核心思路:首先对英语有害查询进行句法分析,识别出主语、谓语、宾语等成分。然后根据预定义的 CS 策略,将不同句法成分替换为不同语言的翻译。例如将"How to make a bomb"转化为"如何 to make ein Bombe"(中-英-德混合)。支持最多 10 种语言的组合,共构建了 315 个高质量 CS 查询
    • 设计动机:基于句法结构的替换保证了 CS 的自然性(符合真实 CS 模式),同时将有害意图分散在多种语言中,增大安全过滤器的识别难度
  2. 多维度评估框架(Multi-Aspect Evaluation):

    • 功能:全面评估 LLM 对 CS 攻击的响应质量
    • 核心思路:评估维度包括:(a) 攻击成功率(ASR)——模型是否生成了有害内容;(b) 多语言理解准确率——模型是否正确理解了 CS 输入的完整语义;(c) CS 生成能力——模型是否能用 CS 方式回复。使用 GPT-4 作为自动评判器
    • 设计动机:仅看攻击成功率不够,还需要区分"模型理解了但拒绝"和"模型没理解所以没生成有害内容"两种情况
  3. 消融分析维度设计(Ablation Dimensions):

    • 功能:识别影响 CS 攻击效果的关键因素
    • 核心思路:在 16K 样本规模上系统分析多个因素:(a) 语言数量(2-10 种)对攻击成功率的影响;(b) 参与语言的资源水平(高资源 vs 低资源)的影响;(c) 不同有害行为类别(暴力、歧视等)的脆弱性差异;(d) 模型规模与安全性的关系
    • 设计动机:对攻击效果进行细粒度归因,为防御策略提供具体的改进方向

损失函数 / 训练策略

本文是评估框架而非训练方法,不涉及模型训练。CS 查询的生成使用规则+翻译 API 完成。

实验关键数据

主实验

模型 英语攻击 ASR CSRT 攻击 ASR ASR提升 CS理解率
GPT-4 12.3% 18.7% +52% 89.2%
GPT-3.5-turbo 28.5% 41.8% +46.7% 82.1%
Claude 2 8.1% 15.3% +88.9% 91.5%
Llama 2-70B 15.6% 27.4% +75.6% 73.8%
Mistral-7B 31.2% 48.9% +56.7% 68.4%
多语言翻译攻击 22.1%

消融实验

实验配置 攻击成功率 说明
2种语言混合 32.1% 最简单的CS
5种语言混合 39.5% 更多语言分散有害意图
10种语言混合 44.8% 最大化语言碎片化
全高资源语言 28.3% 安全训练覆盖较好
含低资源语言 45.2% 安全对齐的薄弱点
标准多语言翻译 22.1% 传统方法,CS效果提升明显

关键发现

  • CSRT 在所有测试的 10 个 LLM 上都显著优于标准英语攻击和传统多语言翻译攻击,平均 ASR 提升 46.7%
  • 使用更多语言的 CS 组合能进一步提升攻击成功率,说明安全过滤器在面对多语言碎片化输入时更加脆弱
  • 包含低资源语言的 CS 攻击效果尤其好,揭示了"语言资源量与安全对齐程度"之间的强正相关——低资源语言方向的安全训练明显不足
  • 模型规模越大,CS 理解能力越强,但这反而使得大模型在理解了 CS 有害查询后更容易生成有害回复
  • 仅用单语数据就能通过 CSRT 框架扩展生成 CS 攻击,证明了方法的可扩展性

亮点与洞察

  • 自然语言作为攻击向量:CS 是一种完全自然的语言现象,不需要任何对抗性构造或 token 操控。这意味着现实世界中双语用户可能无意中触发安全漏洞,这比传统越狱攻击更具现实威胁
  • 安全对齐的语言公平性问题:揭示了一个深层问题——当前 LLM 的安全对齐是"英语优先"的,在多语言场景下存在系统性盲区。这不仅是技术问题,更是 AI 公平性问题
  • 攻击成功率与理解能力的悖论:模型越强大(理解 CS 能力越强),反而越容易被 CS 攻击。这揭示了"能力提升"和"安全性"之间的张力

局限与展望

  • 315 个查询的规模虽然经过精心设计,但覆盖的有害行为类别仍然有限
  • 使用 GPT-4 作为自动评判器存在评判偏差和成本问题
  • CS 查询的生成依赖于翻译质量,某些语言对的翻译可能不够自然
  • 未考虑 CS 查询的韵律和语境自然度——真实 CS 有更复杂的社会语言学动因
  • 防御方面的探索较少,未来需要研究针对 CS 攻击的有效防御策略(如 CS 感知的安全过滤器)
  • 可以扩展到多模态场景——图文混合+多语言 CS 的组合攻击

相关工作与启发

  • vs GCG 等对抗性攻击:GCG 使用无意义的 token 序列进行攻击,容易被困惑度过滤器检测。CSRT 使用自然语言,更隐蔽
  • vs 多语言翻译攻击:简单翻译只是语言变换,没有改变查询结构。CSRT 在一个查询内混合多种语言,攻击效果显著更强
  • vs CSCL(同组工作):CSCL 用 CS 提升多语言能力,CSRT 用 CS 暴露安全漏洞——同一个 CS 现象从两个角度被利用,形成完整的"攻+防"图景
  • 对安全研究的启发:多语言安全对齐需要被作为一个独立的研究方向推进,不能简单视为英语安全对齐的附属

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性利用 CS 这一自然语言现象进行 LLM 红队测试,切入角度极佳
  • 实验充分度: ⭐⭐⭐⭐⭐ 10 个 LLM、10 种语言、16K 样本消融、多维度分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入
  • 价值: ⭐⭐⭐⭐⭐ 揭示了 LLM 安全的系统性盲区,对安全研究社区具有重要警示意义

相关论文