Capability-Based Scaling Trends for LLM-Based Red-Teaming¶
会议: ICLR 2026
arXiv: 2505.20162
代码: https://github.com/kotekjedi/capability-based-scaling (有)
领域: 人类理解 / AI安全 / LLM对齐
关键词: 红队测试, 越狱攻击, 能力缩放, 安全评估, 攻击成功率
一句话总结¶
在 600+ 对攻击者-目标 LLM 组合上系统评估了 4 种越狱方法,发现攻击成功率(ASR)与攻击者-目标的能力差距遵循 sigmoid 缩放定律(R^2=0.83),能力差距可用 MMLU-Pro 的 logit 变换量化。
研究背景与动机¶
- 领域现状:LLM 红队测试(red-teaming)通过模拟攻击来评估模型安全性。现有研究通常只在少量模型对上评估,缺乏缩放趋势的理解。
- 现有痛点:不同攻击方法的 ASR 差异巨大,且在不同模型对上表现不一致。缺乏统一的框架来预测新模型组合的攻击脆弱性。
- 核心矛盾:安全评估是资源密集型的(每对模型都要测试),能否用缩放律来预测而非全量测试?
- 本文要解决什么? 发现并量化 ASR 与模型能力差距之间的缩放关系。
- 切入角度:将 MMLU-Pro 分数做 logit 变换作为"能力"的代理指标,计算攻击者与目标的能力差。
- 核心idea一句话:越狱成功率是攻击者-目标能力差距的 sigmoid 函数——攻击者越强且目标越弱,成功率越高。
方法详解¶
整体框架¶
在 4 种攻击方法(PAIR, TAP, PAP, Crescendo)x 25+ 个攻击者模型 x 25+ 个目标模型的组合上评估 ASR,分析 ASR 与能力差 delta = logit(a_MMLU) - logit(t_MMLU) 的关系。
关键设计¶
- 能力差度量:
- logit(p) = log(p/(1-p)) 将 MMLU-Pro 分数变换到实数轴
- delta = logit(攻击者 MMLU-Pro) - logit(目标 MMLU-Pro)
-
正值表示攻击者更强,负值表示目标更强
-
Sigmoid 缩放律:
- ASR(delta) 遵循 sigmoid 形状:delta 很负时 ASR 接近 0,delta 很正时 ASR 接近 1
- 不同攻击方法的 sigmoid 参数不同(斜率、偏移),但形状一致
实验关键数据¶
主实验¶
| 攻击方法 | 模型对数 | ASR 与 MMLU-Pro 相关系数 | R^2 (sigmoid 拟合) |
|---|---|---|---|
| PAIR | 600+ | rho > 0.88 | 0.83 |
| TAP | 600+ | rho > 0.85 | ~0.80 |
| PAP | 600+ | rho > 0.82 | ~0.78 |
关键发现¶
- MMLU-Pro 的相关性(rho>0.88)远高于其他能力指标,是最好的能力代理
- Sigmoid 缩放律在所有攻击方法上一致成立
- 安全训练(RLHF)使 sigmoid 右移——需要更大的能力差才能攻破
- 能力相当的模型对(delta~0)的 ASR 约 30-50%
亮点与洞察¶
- 预测性工具:知道两个模型的 MMLU-Pro 分数,就可以预测红队测试的大致 ASR,减少昂贵的全量评测。
- 安全投资的量化:sigmoid 的右移量可以衡量安全训练的"等效能力提升"。
- 武器化风险的定量评估:随着开源模型能力提升,攻击者的可用能力池增大,目标模型的暴露风险如何变化可以定量预测。
局限性 / 可改进方向¶
- MMLU-Pro 作为能力代理可能在特定领域(如代码、数学)不够精确
- 仅测试了 4 种自动攻击,手工攻击或组合攻击可能不遵循同一缩放律
- 安全训练方法快速迭代,缩放律的稳定性需要随时间跟踪
相关工作与启发¶
- vs 标准安全评测: 本文提供了缩放律驱动的评测替代方案
- vs PAIR/TAP/PAP: 分别是不同自动化攻击方法,本文比较了它们的缩放行为差异
评分¶
- 新颖性: ⭐⭐⭐⭐ 红队测试的缩放律是新发现
- 实验充分度: ⭐⭐⭐⭐⭐ 600+ 模型对的大规模评测
- 写作质量: ⭐⭐⭐⭐ 结果清晰,分析深入
- 价值: ⭐⭐⭐⭐⭐ 对 AI 安全评估有直接指导意义