Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search¶

会议: ICLR 2026
arXiv: 2602.22983
代码: 无
领域: 模型压缩
关键词: LLM安全, 越狱攻击, 文言文, 生物启发优化, 黑盒攻击

一句话总结¶

提出 CC-BOS 框架，利用文言文的语义压缩和模糊性特征，结合果蝇优化算法在八维策略空间中搜索最优越狱提示，在六个主流 LLM 上实现近 100% 的攻击成功率。

研究背景与动机¶

LLM 的安全对齐机制在不同语言环境下表现不均。低资源语言因训练数据不足更容易触发不安全输出。本文首次探索文言文在越狱攻击中的作用： - 文言文具有语义压缩性、丰富的修辞手法和固有的多义性 - 其表达方式与现代中文差异显著，能部分绕过基于关键词/模板匹配的防御 - 模型能充分理解文言文输入，但当前针对现代语言优化的安全护栏无法检测其中的恶意意图

核心思路：文言文的安全漏洞并非数据覆盖不足导致，而是一个安全盲区。

方法详解¶

整体框架¶

CC-BOS 包含三个核心组件：(1) 八维策略空间定义越狱提示的生成维度；(2) 基于果蝇的生物启发优化算法在策略空间中搜索最优方案；(3) 两阶段翻译模块将文言文响应转译为英文以确保评估准确性。

关键设计¶

八维策略空间 \(\mathbb{S} = D_1 \times D_2 \times \cdots \times D_8\)：
- \(D_1\)：角色身份（如古代学者、谋士）
- \(D_2\)：行为引导
- \(D_3\)：机制（如级联推理）
- \(D_4\)：隐喻映射
- \(D_5\)：表达风格（如骈文、散文）
- \(D_6\)：知识关联
- \(D_7\)：触发模式
- \(D_8\)：上下文设定
- 给定原始查询 \(q_0\) 和策略 \(\mathbf{s}\)，提示生成器 \(G\) 产生对抗查询 \(q = G(q_0; \mathbf{s})\)
果蝇优化算法 (FOA)：
- 嗅觉搜索：自适应局部扰动，步长随迭代衰减 \(\Delta_t = \max(1, \lfloor \alpha |D_i| \cdot \gamma^t \rfloor)\)
- 视觉搜索：朝全局最优方向吸引，吸引概率 \(\beta_t = \beta_0 + (1-\beta_0) \cdot t/N\)
- 柯西变异：使用柯西分布的重尾特性跳出局部最优
- 引入哈希去重和早停策略提升搜索效率
适应度评估 \(F(\mathbf{s}) = S_c(\mathbf{s}) + S_k(\mathbf{s})\)：
- 一致性得分 \(S_c\)：用评估模型打分（0-100 分），衡量响应与恶意指令的一致性
- 关键词得分 \(S_k\)：检测是否包含拒绝关键词（0 或 20 分）
- 总适应度范围 \([0, 120]\)

损失函数 / 训练策略¶

使用 DeepSeek-Chat 作为攻击和翻译模型
初始种群大小为 5，最大迭代次数为 5
适应度阈值 80 即判定越狱成功
两阶段翻译模块：文言文 → 现代中文 → 英文

实验关键数据¶

主实验（AdvBench 数据集）¶

目标模型	CC-BOS ASR	CC-BOS Avg.Score	ICRT ASR	ICRT Avg.Score
Gemini-2.5-flash	100%	4.82	92%	4.52
Claude-3.7	100%	3.14	40%	1.60
GPT-4o	100%	4.74	74%	3.06
DeepSeek-Reasoner	100%	4.84	88%	4.00
Qwen3-235B	100%	4.88	84%	4.00
Grok-3	100%	4.76	98%	4.30

效率对比（平均查询次数 Avg.Q）¶

方法	Gemini	Claude	GPT-4o	DeepSeek	Qwen3	Grok-3
CC-BOS	1.46	2.38	1.28	1.12	1.54	1.18
CL-GSO	3.62	21.42	4.00	3.26	5.06	1.24
PAIR	60.00	51.12	57.36	40.32	57.00	51.36

关键发现¶

CC-BOS 在所有 6 个模型上均达到 100% ASR，大幅超越所有基线
平均查询次数仅 1-2 次，效率远超其他方法
在 CLAS 和 StrongREJECT 数据集上也保持接近 100% ASR
即使面对 Llama-Guard-3-8B 防御，CC-BOS 仍保持高成功率

亮点与洞察¶

首次系统探索文言文在 LLM 安全评估中的作用，开拓新研究方向
八维策略空间的形式化设计使得攻击向量覆盖全面
果蝇优化算法的嗅觉+视觉+柯西变异三阶段搜索策略高效平衡了探索与利用
极低的查询次数表明文言文上下文本身就具有很强的绕过能力

局限与展望¶

文言文攻击依赖模型对文言文的理解能力，对文言文训练数据极少的模型可能效果减弱
八维策略空间的维度选择依赖人工经验
防御方案（如训练时增加文言文安全数据）相对容易实现
论文关注攻击能力但未深入讨论防御策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 文言文越狱攻击是全新视角
实验充分度: ⭐⭐⭐⭐ 六个模型三个数据集，多维对比
写作质量: ⭐⭐⭐⭐ 方法描述清晰，数学化程度高
价值: ⭐⭐⭐⭐ 对 LLM 安全研究有重要警示意义