跳转至

RedSage: A Cybersecurity Generalist LLM

会议: ICLR 2026
arXiv: 2601.22159
代码: 开源(数据+模型+代码)
领域: 模型压缩 / AI安全
关键词: 网络安全LLM, 持续预训练, 域特定微调, 基准测试, 工具调用

一句话总结

RedSage 是开源的 8B 网络安全专用 LLM,通过 11.8B token 安全语料持续预训练 + 266K 样本智能体增强 SFT + 偏好对齐三阶段训练,配套提出覆盖知识/技能/工具三维的 RedSage-Bench(30K MCQ + 240 开放题),在现有网络安全基准上达到 SOTA。

研究背景与动机

  1. 领域现状:网络安全威胁日益复杂,全球安全人才缺口数百万。现有安全 LLM(PRIMUS/Foundation-Sec/DeepHat)通常只关注单一训练阶段,且数据/模型很少完全开源。
  2. 现有痛点
  3. 现有基准仅覆盖知识或技能单一维度,缺少工具熟练度评估和开放题质量评价
  4. 持续预训练和 SFT 往往简陋执行,数据质量和规模不足
  5. 可复现性差:多数工作未释放数据或训练流程
  6. 核心idea:全流程开源:11.8B token 预训练语料 + 266K SFT 样本(用智能体流程生成) + 三维基准 = 可复现的完整网络安全 LLM 开发框架。

方法详解

整体框架

三阶段:(1) 域特定持续预训练(11.8B token 过滤后的安全语料)→ (2) SFT(200K+ 智能体增强对话 + 66K 种子数据)→ (3) DPO 偏好对齐。

关键设计

  1. 安全语料构建:收集11.8B token,包括安全博客/CVE/工具文档/教程等多源数据,经URL、域名和内容质量多层过滤
  2. 智能体增强 SFT 数据:以 66K 种子 Q&A 为基础,用智能体流程扩展到 266K——智能体自动生成变体问题、多角度回答、工具调用演示
  3. RedSage-Bench 三维基准:知识(30K MCQ)+ 实战技能 + 工具熟练度(CLI、Kali Linux)+ 240 开放题用 LLM-as-judge 质量评分

实验关键数据

主实验

模型 SecEval↑ CyberMetric↑ SecBench↑ 通用基准↑
Llama-3.1-8B-Instruct 基线 基线 基线 基线
PRIMUS +小幅 +小幅 - -小幅
RedSage SOTA SOTA SOTA 保持/提升

关键发现

  • 在安全基准上全面 SOTA,同时通用能力保持或提升
  • 智能体增强的 SFT 数据质量超越单纯数量堆叠
  • 工具熟练度评估填补了现有基准的重要空白

亮点与洞察

  • 全流程开源是最大价值——数据+模型+代码+基准全部公开,为网络安全 LLM 研究提供可复现基线
  • 智能体流程生成 SFT 数据的方法可迁移到其他域特定 LLM 训练

局限性 / 可改进方向

  • 仅 8B 参数,更大模型效果未验证
  • 未结合 RL/GRPO 做推理能力增强
  • 工具评估仅限 CLI/Kali,未覆盖 Metasploit/Burp Suite 等专业工具

相关工作与启发

  • vs PRIMUS: PRIMUS 仅 835 个 SFT 样本;RedSage 266K 且智能体增强
  • vs Foundation-Sec-8B: Cisco 作品但数据未开源;RedSage 全开源

评分

  • 新颖性: ⭐⭐⭐ 方法不新但工程执行全面
  • 实验充分度: ⭐⭐⭐⭐ 多基准、三维评估、质量评分
  • 写作质量: ⭐⭐⭐⭐ 流程清晰,资源总结表很实用
  • 价值: ⭐⭐⭐⭐⭐ 开源全流程对网络安全社区价值极高