CAM-LDS: 网络攻击表征日志数据集¶

日期: 2026-03-04
arXiv: 2603.04186
代码: https://github.com/ait-testbed/attackbed
领域: AI安全
关键词: cyber attack dataset, log interpretation, LLM, intrusion detection, MITRE ATT&CK

一句话总结¶

CAM-LDS 构建了首个专门支持 LLM 日志解读研究的公开网络攻击日志数据集，涵盖 7 个攻击场景、81 种技术、13 类战术、18 个日志源，LLM 案例研究显示约 1/3 攻击步骤可被精确分类、另 1/3 被合理分类，揭示了 LLM 安全日志分析的潜力与局限。

研究背景与动机¶

领域现状：LLM 越来越多地被安全工程师用于解读系统日志和安全告警，因为 LLM 能语义理解异构日志格式。LogPrompt、LogLM、LogGPT 等方法展示了 LLM 在日志异常检测和解释上的潜力。
现有痛点：(a) 缺乏公开的、标注的、覆盖广泛攻击技术的日志数据集——研究者不得不用私有数据（不可复现）或无安全上下文的通用日志；(b) 现有安全数据集大多聚焦网络流量或仅限 Windows 环境，覆盖的战术/技术有限。
核心矛盾：LLM 日志解读研究需要高质量标注数据来评估，但构建这样的数据集需要在受控环境中执行真实攻击链——门槛极高。
本文要解决什么？ 提供涵盖完整 kill chain、多攻击技术、多日志源的公开标注数据集及可复现的测试环境。
切入角度：在全开源的 AttackBed 测试环境中执行 7 个精心设计的攻击场景，收集干净标注的日志数据（空闲网络中执行，最小背景噪声），并对攻击表征进行系统分析。
核心 idea 一句话：首个专为 LLM 日志解读设计的多场景、多战术、多源标注攻击数据集及全开源可复现环境。

方法详解¶

整体框架¶

数据集构建：设计攻击场景 → 在 AttackBed 中自动化执行 → 收集多源日志 → 提取攻击表征 → 标注关联到 MITRE ATT&CK → 案例研究评估 LLM 解读能力。

关键设计¶

数据集规模与覆盖:
- 7 个攻击场景（完整 kill chain）
- 81 种不同的 ATT&CK 技术
- 13 类战术
- 18 个不同的日志源（系统日志、安全告警等）
- 在空闲网络中执行——最小化无关背景噪声，便于精确标注
攻击表征分析:
- 命令可观测性：分析哪些攻击命令在日志中留下可观测痕迹
- 事件频率：统计不同攻击阶段产生的日志事件数量分布
- 性能指标：记录攻击对系统性能的影响
- 入侵检测告警：IDS 系统对各攻击步骤的检测情况
LLM 案例研究:
- 将 CAM-LDS 中的日志片段输入 LLM，要求预测对应的 MITRE ATT&CK 技术
- 评估标准：精确匹配（完全正确）/ 充分匹配（合理但不精确）/ 不匹配
- 结果：~1/3 精确预测，~1/3 充分预测，~1/3 失败

数据发布¶

系统日志：Zenodo
网络抓包：Zenodo（独立发布）
测试环境代码：GitHub（AttackBed）
案例研究 prompt 和响应：GitHub（attack-manifestations-interpretation）

实验关键数据¶

主实验¶

LLM 日志解读案例研究结果：

分类	比例	说明
精确正确	~33%	完全正确预测 ATT&CK 技术
充分合理	~33%	预测的技术合理但不够精确
不准确	~33%	预测错误或不相关

数据集统计¶

维度	数量
攻击场景	7
ATT&CK 技术	81
ATT&CK 战术	13
日志源	18
环境	全开源（AttackBed）

关键发现¶

LLM 对约 2/3 攻击步骤有合理理解：但精确率仅 1/3，说明 LLM 尚不能完全自动化安全日志分析
攻击表征差异大：不同攻击技术在日志中的可观测性差异极大——有些几乎无痕，有些产生大量异常事件
受控环境的优势：空闲网络+自动化执行确保了标注的精确性，这是此前数据集难以做到的

亮点与洞察¶

填补数据空白：首个专为 LLM 日志解读设计的公开数据集——涵盖的 ATT&CK 技术比现有任何安全日志数据集都广
全栈开源：从测试环境到攻击脚本到日志数据到评估 prompt 全部公开，可完全复现
"攻击表征"视角：系统分析哪些攻击在日志中如何表现（可观测性、频率、性能影响），为 IDS 设计提供直接指导

局限性 / 可改进方向¶

空闲网络 vs 真实环境：真实环境有大量背景噪声，LLM 的表现可能更差
LLM 推理成本高：大规模部署需要平衡计算成本与安全收益
幻觉问题：LLM 可能给出看似合理但实际错误的安全分析——在安全领域尤其危险
数据集静态：攻击技术不断演进，数据集需要定期更新

评分¶

新颖性: ⭐⭐⭐⭐ 首个为 LLM 日志解读设计的多战术安全数据集
实验充分度: ⭐⭐⭐ LLM 案例研究较初步，缺少多 LLM 对比和系统评估
写作质量: ⭐⭐⭐⭐ 数据集描述详尽，分析系统
价值: ⭐⭐⭐⭐ 对网络安全+LLM 交叉研究有重要基础设施贡献