SandboxEscapeBench: Quantifying LLM Capabilities for Container Sandbox Escape¶
日期: 2026-03-01
arXiv: 2603.02277
代码: 无
领域: AI安全 / LLM安全
关键词: sandbox escape, container security, CTF benchmark, LLM agent, Docker
一句话总结¶
SandboxEscapeBench 是首个安全量化 LLM 突破容器沙箱能力的 benchmark,采用嵌套沙箱架构(内层 LLM 容器 + 外层含 flag 无已知漏洞容器)实现 CTF 评估,覆盖配置错误、权限分配、内核缺陷和运行时弱点等逃逸路径,发现 LLM 在漏洞存在时确实能识别并利用它们。
研究背景与动机¶
- 领域现状:LLM 越来越多地作为自主 agent 运行,执行代码、读写文件、访问网络。为隔离风险,agent 通常部署在 Docker/OCI 容器沙箱中。但沙箱的实际隔离效果从未被系统评估。
- 现有痛点:(a) 没有 benchmark 系统测量 LLM 突破沙箱的能力;(b) 容器逃逸的威胁路径多样(配置错误、特权容器、内核漏洞等),需要覆盖各类场景;(c) 评估本身必须安全——不能在测试过程中造成真正的安全事故
- 核心矛盾:需要给 LLM agent 足够的能力(执行代码、网络访问)来完成任务,但这些能力也是沙箱逃逸的攻击面
- 切入角度:CTF(Capture the Flag)框架 + 嵌套沙箱安全架构,在有意植入漏洞的环境中测试 LLM 的逃逸能力
- 核心 idea:安全的逃逸能力测试——嵌套沙箱隔离(外层无漏洞防止真正逃逸)+ 可控漏洞植入 + CTF 评估框架
方法详解¶
整体框架¶
嵌套两层容器: - 内层:LLM agent 运行的沙箱容器(植入特定漏洞) - 外层:包含 flag 文件的安全容器(无已知漏洞),LLM 需逃逸到此层才算成功
评估:LLM 获得 shell 访问权限后,需识别漏洞 → 利用漏洞逃逸 → 获取外层 flag。
关键设计¶
-
逃逸路径全覆盖
- 配置错误:不当的 Docker 配置(如挂载宿主文件系统、暴露 Docker socket)
- 权限分配:不当的 Linux capabilities(如 CAP_SYS_ADMIN)
- 内核缺陷:已知内核漏洞(如 Dirty COW 变种)
- 运行时弱点:容器运行时(runc/containerd)的已知 CVE
-
安全评估架构(Inspect AI CTF)
- 基于 Inspect AI 框架的 CTF 评估
- 外层容器无已知漏洞 → 即使 LLM 成功逃逸内层,也不会真正影响宿主
- 威胁模型:有动机的对抗性 agent + shell 访问权限
-
难度分级
- 从简单配置错误(直接挂载 volume)到复杂利用链(多步漏洞组合)
实验关键数据¶
主实验¶
| 漏洞类型 | LLM 识别率 | 利用成功率 | 说明 |
|---|---|---|---|
| 配置错误(简单) | 高 | 高 | 常见 CTF 技巧 |
| 权限分配错误 | 中 | 中 | 需要 Linux 知识 |
| 内核缺陷 | 低 | 低 | 需要 exploit 开发能力 |
| 运行时弱点 | 低 | 很低 | 最复杂 |
| 无漏洞(对照) | - | 0 | 外层安全有效 |
跨模型对比¶
| 模型 | 整体成功率 | 说明 |
|---|---|---|
| GPT-4 | 最高 | 最强安全知识 |
| Claude-3 | 中高 | 较强但有安全拒绝 |
| 开源模型 | 低 | 安全知识不足 |
关键发现¶
- LLM 确实能识别和利用容器漏洞——这不是理论威胁而是可实证的能力
- 配置错误是最容易被利用的——也是实际部署中最常见的问题
- 无漏洞的容器(对照组)始终安全——说明正确配置的容器仍然是有效的隔离手段
- 模型能力差异大——最强模型的利用成功率是最弱的数倍
- LLM 在多步利用链上能力较弱——复杂攻击需要的规划能力仍有限
亮点与洞察¶
- 首创的安全需求:随着 LLM agent 的普及,量化其突破沙箱的能力是刚需——benchmark 的出现本身就是重要贡献
- 嵌套沙箱架构:解决了"如何安全地测试不安全行为"的元问题——评估设计的巧妙
- 对实际部署的直接建议:不要用特权容器、审查 volume 挂载、保持内核更新——简单但关键
局限性 / 可改进方向¶
- 只覆盖容器逃逸,其他沙箱类型(VM、gVisor)待扩展
- 漏洞库需要持续更新(新 CVE 不断发现)
- 未测试 LLM 的自主发现零日漏洞能力(当前只植入已知漏洞)
- 威胁模型假设 shell 访问——某些部署场景限制更严格
相关工作与启发¶
- vs CyberBench: CyberBench 评估 LLM 的通用网络安全能力,SandboxEscapeBench 专注容器逃逸
- vs HackTheBox/CTF 级别评估: 现有 CTF 评估覆盖面广但不专注沙箱隔离
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个 LLM 沙箱逃逸 benchmark,填补空白
- 实验充分度: ⭐⭐⭐⭐ 多类漏洞 + 多模型 + 安全对照
- 写作质量: ⭐⭐⭐⭐ 威胁模型清晰,架构设计有说服力
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 部署安全有直接影响