CAM-LDS: 网络攻击表征日志数据集¶
日期: 2026-03-04
arXiv: 2603.04186
代码: https://github.com/ait-testbed/attackbed
领域: AI安全
关键词: cyber attack dataset, log interpretation, LLM, intrusion detection, MITRE ATT&CK
一句话总结¶
CAM-LDS 构建了首个专门支持 LLM 日志解读研究的公开网络攻击日志数据集,涵盖 7 个攻击场景、81 种技术、13 类战术、18 个日志源,LLM 案例研究显示约 1/3 攻击步骤可被精确分类、另 1/3 被合理分类,揭示了 LLM 安全日志分析的潜力与局限。
研究背景与动机¶
- 领域现状:LLM 越来越多地被安全工程师用于解读系统日志和安全告警,因为 LLM 能语义理解异构日志格式。LogPrompt、LogLM、LogGPT 等方法展示了 LLM 在日志异常检测和解释上的潜力。
- 现有痛点:(a) 缺乏公开的、标注的、覆盖广泛攻击技术的日志数据集——研究者不得不用私有数据(不可复现)或无安全上下文的通用日志;(b) 现有安全数据集大多聚焦网络流量或仅限 Windows 环境,覆盖的战术/技术有限。
- 核心矛盾:LLM 日志解读研究需要高质量标注数据来评估,但构建这样的数据集需要在受控环境中执行真实攻击链——门槛极高。
- 本文要解决什么? 提供涵盖完整 kill chain、多攻击技术、多日志源的公开标注数据集及可复现的测试环境。
- 切入角度:在全开源的 AttackBed 测试环境中执行 7 个精心设计的攻击场景,收集干净标注的日志数据(空闲网络中执行,最小背景噪声),并对攻击表征进行系统分析。
- 核心 idea 一句话:首个专为 LLM 日志解读设计的多场景、多战术、多源标注攻击数据集及全开源可复现环境。
方法详解¶
整体框架¶
数据集构建:设计攻击场景 → 在 AttackBed 中自动化执行 → 收集多源日志 → 提取攻击表征 → 标注关联到 MITRE ATT&CK → 案例研究评估 LLM 解读能力。
关键设计¶
-
数据集规模与覆盖:
- 7 个攻击场景(完整 kill chain)
- 81 种不同的 ATT&CK 技术
- 13 类战术
- 18 个不同的日志源(系统日志、安全告警等)
- 在空闲网络中执行——最小化无关背景噪声,便于精确标注
-
攻击表征分析:
- 命令可观测性:分析哪些攻击命令在日志中留下可观测痕迹
- 事件频率:统计不同攻击阶段产生的日志事件数量分布
- 性能指标:记录攻击对系统性能的影响
- 入侵检测告警:IDS 系统对各攻击步骤的检测情况
-
LLM 案例研究:
- 将 CAM-LDS 中的日志片段输入 LLM,要求预测对应的 MITRE ATT&CK 技术
- 评估标准:精确匹配(完全正确)/ 充分匹配(合理但不精确)/ 不匹配
- 结果:~1/3 精确预测,~1/3 充分预测,~1/3 失败
数据发布¶
- 系统日志:Zenodo
- 网络抓包:Zenodo(独立发布)
- 测试环境代码:GitHub(AttackBed)
- 案例研究 prompt 和响应:GitHub(attack-manifestations-interpretation)
实验关键数据¶
主实验¶
LLM 日志解读案例研究结果:
| 分类 | 比例 | 说明 |
|---|---|---|
| 精确正确 | ~33% | 完全正确预测 ATT&CK 技术 |
| 充分合理 | ~33% | 预测的技术合理但不够精确 |
| 不准确 | ~33% | 预测错误或不相关 |
数据集统计¶
| 维度 | 数量 |
|---|---|
| 攻击场景 | 7 |
| ATT&CK 技术 | 81 |
| ATT&CK 战术 | 13 |
| 日志源 | 18 |
| 环境 | 全开源(AttackBed) |
关键发现¶
- LLM 对约 2/3 攻击步骤有合理理解:但精确率仅 1/3,说明 LLM 尚不能完全自动化安全日志分析
- 攻击表征差异大:不同攻击技术在日志中的可观测性差异极大——有些几乎无痕,有些产生大量异常事件
- 受控环境的优势:空闲网络+自动化执行确保了标注的精确性,这是此前数据集难以做到的
亮点与洞察¶
- 填补数据空白:首个专为 LLM 日志解读设计的公开数据集——涵盖的 ATT&CK 技术比现有任何安全日志数据集都广
- 全栈开源:从测试环境到攻击脚本到日志数据到评估 prompt 全部公开,可完全复现
- "攻击表征"视角:系统分析哪些攻击在日志中如何表现(可观测性、频率、性能影响),为 IDS 设计提供直接指导
局限性 / 可改进方向¶
- 空闲网络 vs 真实环境:真实环境有大量背景噪声,LLM 的表现可能更差
- LLM 推理成本高:大规模部署需要平衡计算成本与安全收益
- 幻觉问题:LLM 可能给出看似合理但实际错误的安全分析——在安全领域尤其危险
- 数据集静态:攻击技术不断演进,数据集需要定期更新
相关工作与启发¶
- vs CIC-IDS/UNSW-NB15: 它们聚焦网络流量,CAM-LDS 聚焦系统日志+安全告警
- vs Atomic Red Team: Atomic Red Team 提供原子攻击但不组织成完整 kill chain,CAM-LDS 是场景化的
- vs LLM-LADE (Zhang 2025): LLM-LADE 做日志异常检测+解释,但在非安全数据上评估;CAM-LDS 专供安全场景评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个为 LLM 日志解读设计的多战术安全数据集
- 实验充分度: ⭐⭐⭐ LLM 案例研究较初步,缺少多 LLM 对比和系统评估
- 写作质量: ⭐⭐⭐⭐ 数据集描述详尽,分析系统
- 价值: ⭐⭐⭐⭐ 对网络安全+LLM 交叉研究有重要基础设施贡献