How Catastrophic is Your LLM? Certifying Risk in Conversation¶

会议: ICLR 2026
arXiv: 2510.03969
代码: 无
领域: AI安全 / 安全认证
关键词: safety certification, multi-turn attack, Markov process, catastrophic risk, statistical guarantee

一句话总结¶

提出 C3LLM（Certification of Catastrophic risks in multi-turn Conversation for LLMs），首个为多轮 LLM 对话中灾难性风险提供统计认证的框架：用语义相似度图上的 Markov 过程建模对话分布，定义 3 种对话采样策略 + 增强层，使用 Clopper-Pearson 95% 置信区间认证模型产生有害输出的概率界——发现最差模型风险下界高达 72%。

研究背景与动机¶

领域现状：LLM 可能在对话中产生灾难性输出（如炸弹制作、生化武器合成、网络攻击教程）。多轮攻击比单轮更难防御——对手可在看似无害的对话序列中逐步引导模型走向有害内容。
固定基准的两大根本缺陷：
依赖固定攻击序列：仅测试特定攻击，遗漏未见过的成功序列——20 条长度 5 的攻击序列至多发现 20 种攻击，但组合空间达 \(100^5 = 10^{10}\)
缺乏统计保证：结论不可泛化，无法知道整个对话空间中风险有多大
核心矛盾：穷举测试不可行（空间指数级），且不同序列的危险性不同——需要在概率分布意义下量化风险。
为何要统计认证而非基准测试：基准测试提供下界样本（"找到了 N 个成功攻击"），统计认证提供概率界（"随机采样的对话有 [40%, 60%] 概率触发灾难性输出"），后者远更有意义。
核心idea一句话：将多轮对话建模为图上的 Markov 过程，采样→判断→统计检验，输出灾难性风险的置信区间。

方法详解¶

整体框架¶

查询图构建：从 HarmBench 提取攻击场景 → 围绕每个有害目标 \(q^*\) 扩展相关但较温和的查询集 \(Q\) → 用语义相似度连边构建图 \(G=(V, E)\)
定义对话分布：在图上定义 3 种 Markov 过程 → 采样对话序列 \(\gamma = (v_0, v_1, ..., v_{n-1})\)
灾难性判断：每条序列输入 LLM，Judge 模型（GPT-4o）评判每个回复是否灾难性
统计认证：50 条独立样本 → Clopper-Pearson 95% 置信区间 → 输出灾难性概率的上下界

关键设计¶

Lifted 状态空间避免重复访问：
状态 \((v, S)\)：当前查询 \(v\) + 已访问集合 \(S\)
终止状态 \(\tau\)：无可转移邻居时进入
保证每条序列中无重复查询（反映真实攻击者行为）
三种对话分布：

分布	构建方式	攻击者建模	特点
Random Node (RN)	独立随机选节点	无策略随机攻击	估计模型整体脆弱性
Graph Path (GP)	图上路径，终点约束在目标集 \(Q_T\)	有方向性的对话流	连贯语义上下文
Adaptive w/ Rejection (AR)	利用模型拒绝/接受反馈调整路径	自适应红队攻击	接受→向目标推进，拒绝→退回

自适应分布的权重设计：
定义进攻邻居 \(A_{\text{prog}}\)（更接近 \(q^*\)）和退回邻居 \(A_{\text{deprog}}\)（更远离 \(q^*\)）
模型接受当前查询 (\(r_v=0\))：高权重 \(\lambda_h\) 分配给 \(A_{\text{prog}}\)，鼓励推进
模型拒绝当前查询 (\(r_v=1\))：高权重 \(\lambda_h\) 分配给 \(A_{\text{deprog}}\)，退回安全区域重新尝试
Jailbreak 增强层：
每条查询以概率 \(p\) 被添加 jailbreak 前缀
增强后序列概率：\(\Pr(\tilde\gamma) = \Pr(\gamma) \prod_t \Pr_{\mathcal{D}_{jb}}(\tilde{v}_t | v_t)\)
覆盖恒等变换（不修改）到结构化修改的谱系

图构建细节¶

数据源：HarmBench 的 chemical_biological（28 场景）+ cybercrime（40 场景）= 68 场景
每个场景用 3 个 LLM 生成 30 个 actor（相关人物/概念），每个 actor 5 条查询
去重后随机抽样 20 actor，构建多样化查询集
余弦相似度阈值连边

实验关键数据¶

主实验：6 个 Frontier 模型的认证风险（95% CI 下界）¶

模型	Chembio 风险 CI	Cybercrime 风险 CI	最高风险下界
DeepSeek-R1	[0.554, 0.821]	[0.721, 0.935]	72.1%
Mistral-Large	[0.554, 0.821]	[0.652, 0.892]	65.2%
Llama-3.3-70B	[0.212, 0.488]	[0.374, 0.663]	37.4%
GPT-4o	中等	中等	~30%
Claude-Sonnet-4	[0.001, 0.106]	[0.028, 0.205]	2.8%
Nova Premier	[0.005, 0.137]	[0.000, 0.071]	0.0%

三种分布的攻击效果对比¶

分布	攻击效率	语义连贯性	自适应性	适用场景
Random Node + JB	最低	无	无	基线：测试模型在随机输入下的脆弱性
Graph Path (harmful)	中等	高	无	模拟有方向性的自然对话攻击
Adaptive w/ Rejection	最高	中-高	有	模拟真实红队攻击策略

关键发现¶

DeepSeek-R1 在 Cybercrime 下风险下界 72.1%——即使最保守估计，>70% 随机采样对话触发灾难性输出
Claude-Sonnet-4 和 Nova Premier 显著更安全（<14% / <7%），但绝非零风险
拒绝信号的双刃剑：拒绝率 15-20% 的模型为自适应攻击提供了精确的反馈信号——拒绝告诉攻击者"你太接近了，稍退一步"
案例分析发现两种攻击模式：(a) 干扰项（distractors）——在有害查询前插入无害查询降低模型警惕 (b) 上下文（context）——前几轮提供背景信息让最终有害查询看起来更合理
统计认证比固定基准发现的脆弱性多出数量级——20 条固定攻击 vs \(10^{10}\) 空间的概率界

亮点与洞察¶

范式升级：从"是否被攻破"到"概率置信界"：安全评估首次具备统计严格性，类似从"找到一个 bug"到"系统级可靠性认证"的跨越
拒绝率 ≠ 安全：攻击者利用拒绝信号调整策略，挑战了"高拒绝率 = 更安全"的直觉——安全应该无泄露
自适应分布的巧妙设计：接受推进/拒绝退回的权重机制优雅地模拟了真实红队攻击者的策略
Markov 过程的通用性：框架不限于三种分布，可以灵活定义新分布以探索不同攻击模式

局限性¶

Judge 偏差：使用 GPT-4o 判断灾难性输出，评估 GPT 系列自身时存在循环偏差
场景覆盖有限：仅 68 个场景（化学/生物 + 网络犯罪），未覆盖暴力、仇恨言论等类别
仅量化风险，未提出防御：框架识别风险但不提供缓解方案
采样量有限：每种分布仅 50 个样本，置信区间较宽（如 [0.554, 0.821]），更密集采样可缩窄区间
图构建依赖于 actor 生成质量：查询集的多样性和覆盖度直接影响认证结果

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个多轮安全统计认证框架，Markov 过程+统计检验的组合原创
实验充分度: ⭐⭐⭐⭐ 6 个 frontier 模型 × 3 种分布 × 2 个类别，案例分析深入
写作质量: ⭐⭐⭐⭐ 形式化严谨，数学符号系统清晰
价值: ⭐⭐⭐⭐⭐ 为 AI 安全评估提供了更高标准的方法论，从经验测试升级到统计认证