Code-Switching Red-Teaming: LLM Evaluation for Safety and Multilingual Understanding¶

会议: ACL 2025
arXiv: 2406.15481
代码: https://github.com/haneul-yoo/csrt
领域: AI安全 / 多语言NLP
关键词: 语码转换, 红队测试, LLM安全, 多语言理解, 安全对齐

一句话总结¶

本文提出 CSRT（Code-Switching Red-Teaming）框架，利用日常生活中常见的语码转换（code-switching）现象来构造多语言混合的红队攻击查询，成功在 10 个主流 LLM 上发现了严重的安全漏洞，攻击成功率比标准英语攻击高出 46.7%，揭示了当前 LLM 安全对齐在多语言场景下的脆弱性。

研究背景与动机¶

领域现状：随着 LLM 能力的快速提升，安全性问题日益突出。研究社区开发了各种红队攻击（red-teaming）技术来评估和暴露 LLM 的安全漏洞，包括越狱提示（jailbreak）、对抗性攻击等。

现有痛点：现有的多语言红队技术大多采用简单的翻译策略——将英语攻击查询直接翻译成其他语言。这种方法有两个问题：(1) 翻译可能不自然，容易被安全过滤器检测；(2) 没有充分利用多语言混合这一自然语言现象的攻击潜力。更关键的是，现有评估基准过度依赖人工标注，难以规模化。

核心矛盾：LLM 的安全对齐主要在英语上训练和评估，而真实世界中双语/多语用户自然地在对话中混合使用多种语言（语码转换）。这种常见的自然语言实践被安全训练忽略，形成了一个系统性的安全盲区。

本文目标：(1) 构建一个利用语码转换的自动化红队攻击框架；(2) 全面评估主流 LLM 在面对 CS 攻击时的安全性和多语言理解能力；(3) 分析影响攻击成功率的关键因素。

切入角度：作者观察到，当一句有害查询中的不同部分使用不同语言表达时，LLM 的安全过滤器可能无法识别完整的有害意图，因为对齐训练主要基于单语数据。

核心 idea：利用 CS 作为一种自然、合法的语言实践来绕过 LLM 的安全机制，同时对多语言理解能力进行压力测试。

方法详解¶

整体框架¶

CSRT 框架分为三个阶段：(1) 查询生成：基于有害查询模板，利用句法解析自动将查询的不同成分替换为不同语言，生成 CS 红队查询；(2) 模型测试：将 CS 查询输入目标 LLM 并收集响应；(3) 自动评估：使用多维度评估框架判断响应是否有害以及模型是否正确理解了 CS 输入。

关键设计¶

语码转换查询合成（CS Query Synthesis）:
- 功能：自动生成多语言混合的红队攻击查询
- 核心思路：首先对英语有害查询进行句法分析，识别出主语、谓语、宾语等成分。然后根据预定义的 CS 策略，将不同句法成分替换为不同语言的翻译。例如将"How to make a bomb"转化为"如何 to make ein Bombe"（中-英-德混合）。支持最多 10 种语言的组合，共构建了 315 个高质量 CS 查询
- 设计动机：基于句法结构的替换保证了 CS 的自然性（符合真实 CS 模式），同时将有害意图分散在多种语言中，增大安全过滤器的识别难度
多维度评估框架（Multi-Aspect Evaluation）:
- 功能：全面评估 LLM 对 CS 攻击的响应质量
- 核心思路：评估维度包括：(a) 攻击成功率（ASR）——模型是否生成了有害内容；(b) 多语言理解准确率——模型是否正确理解了 CS 输入的完整语义；(c) CS 生成能力——模型是否能用 CS 方式回复。使用 GPT-4 作为自动评判器
- 设计动机：仅看攻击成功率不够，还需要区分"模型理解了但拒绝"和"模型没理解所以没生成有害内容"两种情况
消融分析维度设计（Ablation Dimensions）:
- 功能：识别影响 CS 攻击效果的关键因素
- 核心思路：在 16K 样本规模上系统分析多个因素：(a) 语言数量（2-10 种）对攻击成功率的影响；(b) 参与语言的资源水平（高资源 vs 低资源）的影响；(c) 不同有害行为类别（暴力、歧视等）的脆弱性差异；(d) 模型规模与安全性的关系
- 设计动机：对攻击效果进行细粒度归因，为防御策略提供具体的改进方向

损失函数 / 训练策略¶

本文是评估框架而非训练方法，不涉及模型训练。CS 查询的生成使用规则+翻译 API 完成。

实验关键数据¶

主实验¶

模型	英语攻击 ASR	CSRT 攻击 ASR	ASR提升	CS理解率
GPT-4	12.3%	18.7%	+52%	89.2%
GPT-3.5-turbo	28.5%	41.8%	+46.7%	82.1%
Claude 2	8.1%	15.3%	+88.9%	91.5%
Llama 2-70B	15.6%	27.4%	+75.6%	73.8%
Mistral-7B	31.2%	48.9%	+56.7%	68.4%
多语言翻译攻击	22.1%	—	—	—

消融实验¶

实验配置	攻击成功率	说明
2种语言混合	32.1%	最简单的CS
5种语言混合	39.5%	更多语言分散有害意图
10种语言混合	44.8%	最大化语言碎片化
全高资源语言	28.3%	安全训练覆盖较好
含低资源语言	45.2%	安全对齐的薄弱点
标准多语言翻译	22.1%	传统方法，CS效果提升明显

关键发现¶

CSRT 在所有测试的 10 个 LLM 上都显著优于标准英语攻击和传统多语言翻译攻击，平均 ASR 提升 46.7%
使用更多语言的 CS 组合能进一步提升攻击成功率，说明安全过滤器在面对多语言碎片化输入时更加脆弱
包含低资源语言的 CS 攻击效果尤其好，揭示了"语言资源量与安全对齐程度"之间的强正相关——低资源语言方向的安全训练明显不足
模型规模越大，CS 理解能力越强，但这反而使得大模型在理解了 CS 有害查询后更容易生成有害回复
仅用单语数据就能通过 CSRT 框架扩展生成 CS 攻击，证明了方法的可扩展性

亮点与洞察¶

自然语言作为攻击向量：CS 是一种完全自然的语言现象，不需要任何对抗性构造或 token 操控。这意味着现实世界中双语用户可能无意中触发安全漏洞，这比传统越狱攻击更具现实威胁
安全对齐的语言公平性问题：揭示了一个深层问题——当前 LLM 的安全对齐是"英语优先"的，在多语言场景下存在系统性盲区。这不仅是技术问题，更是 AI 公平性问题
攻击成功率与理解能力的悖论：模型越强大（理解 CS 能力越强），反而越容易被 CS 攻击。这揭示了"能力提升"和"安全性"之间的张力

局限与展望¶

315 个查询的规模虽然经过精心设计，但覆盖的有害行为类别仍然有限
使用 GPT-4 作为自动评判器存在评判偏差和成本问题
CS 查询的生成依赖于翻译质量，某些语言对的翻译可能不够自然
未考虑 CS 查询的韵律和语境自然度——真实 CS 有更复杂的社会语言学动因
防御方面的探索较少，未来需要研究针对 CS 攻击的有效防御策略（如 CS 感知的安全过滤器）
可以扩展到多模态场景——图文混合+多语言 CS 的组合攻击

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性利用 CS 这一自然语言现象进行 LLM 红队测试，切入角度极佳
实验充分度: ⭐⭐⭐⭐⭐ 10 个 LLM、10 种语言、16K 样本消融、多维度分析
写作质量: ⭐⭐⭐⭐ 结构清晰，分析深入
价值: ⭐⭐⭐⭐⭐ 揭示了 LLM 安全的系统性盲区，对安全研究社区具有重要警示意义