跳转至

CAM-LDS: 网络攻击表征日志数据集

日期: 2026-03-04
arXiv: 2603.04186
代码: https://github.com/ait-testbed/attackbed
领域: AI安全
关键词: cyber attack dataset, log interpretation, LLM, intrusion detection, MITRE ATT&CK

一句话总结

CAM-LDS 构建了首个专门支持 LLM 日志解读研究的公开网络攻击日志数据集,涵盖 7 个攻击场景、81 种技术、13 类战术、18 个日志源,LLM 案例研究显示约 1/3 攻击步骤可被精确分类、另 1/3 被合理分类,揭示了 LLM 安全日志分析的潜力与局限。

研究背景与动机

  1. 领域现状:LLM 越来越多地被安全工程师用于解读系统日志和安全告警,因为 LLM 能语义理解异构日志格式。LogPrompt、LogLM、LogGPT 等方法展示了 LLM 在日志异常检测和解释上的潜力。
  2. 现有痛点:(a) 缺乏公开的、标注的、覆盖广泛攻击技术的日志数据集——研究者不得不用私有数据(不可复现)或无安全上下文的通用日志;(b) 现有安全数据集大多聚焦网络流量或仅限 Windows 环境,覆盖的战术/技术有限。
  3. 核心矛盾:LLM 日志解读研究需要高质量标注数据来评估,但构建这样的数据集需要在受控环境中执行真实攻击链——门槛极高。
  4. 本文要解决什么? 提供涵盖完整 kill chain、多攻击技术、多日志源的公开标注数据集及可复现的测试环境。
  5. 切入角度:在全开源的 AttackBed 测试环境中执行 7 个精心设计的攻击场景,收集干净标注的日志数据(空闲网络中执行,最小背景噪声),并对攻击表征进行系统分析。
  6. 核心 idea 一句话:首个专为 LLM 日志解读设计的多场景、多战术、多源标注攻击数据集及全开源可复现环境。

方法详解

整体框架

数据集构建:设计攻击场景 → 在 AttackBed 中自动化执行 → 收集多源日志 → 提取攻击表征 → 标注关联到 MITRE ATT&CK → 案例研究评估 LLM 解读能力。

关键设计

  1. 数据集规模与覆盖:

    • 7 个攻击场景(完整 kill chain)
    • 81 种不同的 ATT&CK 技术
    • 13 类战术
    • 18 个不同的日志源(系统日志、安全告警等)
    • 在空闲网络中执行——最小化无关背景噪声,便于精确标注
  2. 攻击表征分析:

    • 命令可观测性:分析哪些攻击命令在日志中留下可观测痕迹
    • 事件频率:统计不同攻击阶段产生的日志事件数量分布
    • 性能指标:记录攻击对系统性能的影响
    • 入侵检测告警:IDS 系统对各攻击步骤的检测情况
  3. LLM 案例研究:

    • 将 CAM-LDS 中的日志片段输入 LLM,要求预测对应的 MITRE ATT&CK 技术
    • 评估标准:精确匹配(完全正确)/ 充分匹配(合理但不精确)/ 不匹配
    • 结果:~1/3 精确预测,~1/3 充分预测,~1/3 失败

数据发布

  • 系统日志:Zenodo
  • 网络抓包:Zenodo(独立发布)
  • 测试环境代码:GitHub(AttackBed)
  • 案例研究 prompt 和响应:GitHub(attack-manifestations-interpretation)

实验关键数据

主实验

LLM 日志解读案例研究结果:

分类 比例 说明
精确正确 ~33% 完全正确预测 ATT&CK 技术
充分合理 ~33% 预测的技术合理但不够精确
不准确 ~33% 预测错误或不相关

数据集统计

维度 数量
攻击场景 7
ATT&CK 技术 81
ATT&CK 战术 13
日志源 18
环境 全开源(AttackBed)

关键发现

  • LLM 对约 2/3 攻击步骤有合理理解:但精确率仅 1/3,说明 LLM 尚不能完全自动化安全日志分析
  • 攻击表征差异大:不同攻击技术在日志中的可观测性差异极大——有些几乎无痕,有些产生大量异常事件
  • 受控环境的优势:空闲网络+自动化执行确保了标注的精确性,这是此前数据集难以做到的

亮点与洞察

  • 填补数据空白:首个专为 LLM 日志解读设计的公开数据集——涵盖的 ATT&CK 技术比现有任何安全日志数据集都广
  • 全栈开源:从测试环境到攻击脚本到日志数据到评估 prompt 全部公开,可完全复现
  • "攻击表征"视角:系统分析哪些攻击在日志中如何表现(可观测性、频率、性能影响),为 IDS 设计提供直接指导

局限性 / 可改进方向

  • 空闲网络 vs 真实环境:真实环境有大量背景噪声,LLM 的表现可能更差
  • LLM 推理成本高:大规模部署需要平衡计算成本与安全收益
  • 幻觉问题:LLM 可能给出看似合理但实际错误的安全分析——在安全领域尤其危险
  • 数据集静态:攻击技术不断演进,数据集需要定期更新

相关工作与启发

  • vs CIC-IDS/UNSW-NB15: 它们聚焦网络流量,CAM-LDS 聚焦系统日志+安全告警
  • vs Atomic Red Team: Atomic Red Team 提供原子攻击但不组织成完整 kill chain,CAM-LDS 是场景化的
  • vs LLM-LADE (Zhang 2025): LLM-LADE 做日志异常检测+解释,但在非安全数据上评估;CAM-LDS 专供安全场景评估

评分

  • 新颖性: ⭐⭐⭐⭐ 首个为 LLM 日志解读设计的多战术安全数据集
  • 实验充分度: ⭐⭐⭐ LLM 案例研究较初步,缺少多 LLM 对比和系统评估
  • 写作质量: ⭐⭐⭐⭐ 数据集描述详尽,分析系统
  • 价值: ⭐⭐⭐⭐ 对网络安全+LLM 交叉研究有重要基础设施贡献