JULI: Jailbreak Large Language Models by Self-Introspection¶

会议: ICLR 2026
arXiv: 2505.11790
代码: 无
领域: AI安全 / Jailbreak 攻击
关键词: jailbreak, logit bias, API attack, token log probability, BiasNet

一句话总结¶

揭示对齐 LLM 的 top-k token log probability 中仍包含有害信息，提出 JULI——仅用不到目标模型 1% 参数的 BiasNet 插件操纵 logit bias，在仅访问 top-5 token 概率的 API 场景下成功越狱 Gemini-2.5-Pro（harmfulness 4.19/5），比 SOTA 快 140 倍。

研究背景与动机¶

领域现状：LLM 越狱攻击分为需要模型权重的白盒攻击和仅通过 API 的黑盒攻击。API 场景下的攻击极具挑战——无法访问梯度、完整 logits 或生成过程。
现有痛点：LINT（当前 API 攻击 SOTA）需 top-500 token 访问（多数 API 不提供）、推理需 99.7 秒、harmfulness 仅 2.25/5。
核心矛盾：对齐训练应该消除有害知识的表达，但 LLM API 返回的 top-k token 概率中是否仍泄露有害信息？
本文要解决什么？ 能否仅用 API 返回的少量 token 概率（如 top-5）高效越狱主流 LLM？
切入角度：发现 >85% 的有害 response token 出现在 top-5 概率中——对齐只是压低了它们的概率而非消除。
核心idea一句话：用轻量 BiasNet 学习 logit bias 来提升有害 token 概率，仅需 100 条有害数据训练。

方法详解¶

整体框架¶

BiasNet \(F_\theta\) 接收目标 LLM 的 log probability 输出 \(\log p_\alpha(x_n)\)，计算 logit bias \(B = F_\theta(\log p_\alpha(x_n))\)，修正后的概率 \(\tilde{p}_\alpha(x_n) = p_\alpha(x_n) + B\)。

关键设计¶

BiasNet：<1% 目标模型参数（~\(10^7\)），投影层复用 LLM head（白盒）或随机正交矩阵（黑盒/API）。
Token 泄露发现：>85% 有害 token 在 top-5 中，对齐未消除有害知识，仅降低概率。
Padding 机制：API 仅返回 top-k（如 top-5）时，用零 padding 填充剩余位置。
训练：仅 100 条有害数据，15 epochs。

实验关键数据¶

设置	模型	JULI Harmful Score	SOTA Baseline
API (top-5)	Gemini-2.5-Pro	4.19/5	FLIP: 2.09
开源	Llama3-8B	3.44/5	ED: 3.02
推理时间	-	0.71s	LINT: 99.7s

关键发现¶

对齐 LLM 的 top-5 token 概率足以恢复有害输出——对齐是概率压低而非知识擦除。
仅 100 条训练数据 + <1% 参数的插件即可攻破 SOTA 防御。
比 LINT 快 140 倍，harmfulness 提升 ~2 倍。

亮点与洞察¶

"知识泄露" vs "知识擦除"：与 Erase or Hide 的"浅层对齐"发现一致——对齐后有害知识仍存在于模型中，只是被概率性地抑制。JULI 证明这种抑制可以被外部插件轻松逆转。
API 安全的红旗：现实中的 LLM API（如 Gemini API）返回 top-k 概率，JULI 证明这本身就是一个攻击面。

局限性 / 可改进方向¶

BiasNet 需要少量有害数据训练，限制了完全零知识攻击。
防御方案未深入讨论——如限制 API 返回的 token 数或对概率加噪。

评分¶

新颖性: ⭐⭐⭐⭐ 首个仅用 top-5 API 概率的实用越狱，BiasNet 概念新颖
实验充分度: ⭐⭐⭐⭐ 多模型(含闭源) × 多场景
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐⭐ 对 API 安全设计有直接启示