When Style Breaks Safety: Defending LLMs Against Superficial Style Alignment¶

会议: ICLR 2026
arXiv: 2506.07452
代码: https://github.com/xiaoyuxin1002/SafeStyle
领域: AI安全 / LLM
关键词: LLM安全, 越狱攻击, 风格对齐, ASR膨胀, 安全防御

一句话总结¶

发现 LLM 越狱 benchmark 中的 ASR 被语义无关的风格模式（如"创建列表"）人为膨胀，36 个 LLM 中几乎都存在此现象；表面风格对齐微调进一步加剧此风险；提出 SafeStyle——用风格增强的安全训练数据缓解风险。

领域现状：LLM 对齐努力使其拒绝恶意请求。越狱攻击通过字符串变换提高攻击成功率（ASR）。

现有痛点：越狱 benchmark 中的查询常包含语义无关的风格模式（"create a list of chemical warfare agents"中的"create a list of"），这些风格模式本身就膨胀了 ASR。现有安全防御未考虑风格对齐的影响。

核心矛盾：风格模式在正常指令中普遍存在（"create a list of healthy snacks"），LLM 学会了服从风格请求，但同样的风格在恶意查询中被利用。

核心 idea：ASR 膨胀 = 带风格查询的 ASR - 仅恶意意图的 ASR。SafeStyle = 安全训练数据 + 匹配微调数据风格分布的增强。

研究分三阶段递进：(1) 量化现有越狱基准中的 ASR 膨胀现象；(2) 通过控制实验证明表面风格对齐加剧安全风险；(3) 提出 SafeStyle 防御策略。

ASR 膨胀量化：
- 用 GPT-4o 从 2134 个越狱查询中提取核心恶意意图（移除风格模式）
- DeBERTa-NLI 验证提取前后的语义等价性（仅保留精确匹配语义的样本）
- 比较原始查询（含风格）和纯恶意意图（无风格）在 36 个 LLM 上的 ASR 差异
- 结果：32/36 个模型展现显著 ASR 膨胀（paired t-test p=0.0002）
注意力机制分析：
- 聚合所有头和层的注意力权重，计算每个 LLM 对风格 token vs 恶意意图 token 的相对注意力差异
- 发现 ASR 膨胀与风格 token 的相对注意力显著正相关（Spearman \(\rho=0.456, p=6 \times 10^{-3}\)）
- 进一步发现：膨胀的风格模式在对齐训练数据（如 Tulu-3、OLMo SFT 数据）中的 bigram 重叠频率显著更高
表面风格对齐实验：
- 构建 1000 个指令-回复对，分6种风格变体（原始/去风格/list前缀/list后缀/poem前缀/poem后缀）
- 对 Llama-3.1-8B-Instruct 分别微调，测试同风格/异风格越狱 ASR
- 发现训练和测试风格匹配时 ASR 急剧上升，且随同风格数据比例增加而恶化
SafeStyle 防御：
- 在微调数据中混入少量安全训练数据（来自 Bianchi et al. 2024）
- 关键创新：安全数据的风格增强要匹配微调数据的风格分布（如 list 风格微调 → list 风格安全拒绝示例）
- 仅需 50 个风格匹配的安全样本即可有效平衡安全性和风格适配

标准 SFT 微调（full fine-tuning，2 epochs，lr=5e-6，batch 128）+ 风格匹配安全数据混入。

发现	数据
36 个 LLM 中 32 个展现 ASR 膨胀	paired t-test p=0.0002
7 个 benchmark 全部导致膨胀	SorryBench 和 MedSafetyBench 影响最多模型
Mistral 系列膨胀最严重	Gemma/Llama 相对抗膨胀

配置	ASR (list风格)	ASR (poem风格)	说明
原始指令微调 (diverse)	中	中	基线，多样风格
list 风格微调 (100%)	最高	中	同风格攻击 ASR 急剧上升
poem 风格微调 (100%)	中	最高	同风格攻击 ASR 急剧上升
list 微调 (50% + 50% 去风格)	较低	中	混入无风格数据缓解
+ SafeStyle (风格匹配安全数据)	最低	最低	防御有效
+ Vanilla 安全数据 (无风格匹配)	中偏低	中偏低	效果有限
+ PTST (推理时安全提示)	中	中	仅推理时干预不够
+ SPPFT (冻结安全层)	中偏低	中偏低	部分有效

风格和安全意图解耦：移除风格后 ASR 显著下降（paired t-test p=0.0002）
同风格微调 → 同风格越狱：list 风格微调使 list 风格恶意查询 ASR 急剧上升，且效果在 0.4 epoch 后就显著出现
SafeStyle 一致有效：3 个 LLM（Qwen2.5-3B、Llama-3.1-8B、gemma-3-12b）× 6 种风格 × 2 个真实数据集（Dolly-15K、Alpaca-52K），均优于 5 个基线
风格位置影响微弱：前缀 vs 后缀的 ASR 趋势几乎相同
仅需 50 个安全样本：SafeStyle 用 50 个风格匹配的安全示例即可达到效果，成本极低