RedSage: A Cybersecurity Generalist LLM¶
会议: ICLR 2026
arXiv: 2601.22159
代码: 开源(数据+模型+代码)
领域: 模型压缩 / AI安全
关键词: 网络安全LLM, 持续预训练, 域特定微调, 基准测试, 工具调用
一句话总结¶
RedSage 是开源的 8B 网络安全专用 LLM,通过 11.8B token 安全语料持续预训练 + 266K 样本智能体增强 SFT + 偏好对齐三阶段训练,配套提出覆盖知识/技能/工具三维的 RedSage-Bench(30K MCQ + 240 开放题),在现有网络安全基准上达到 SOTA。
研究背景与动机¶
- 领域现状:网络安全威胁日益复杂,全球安全人才缺口数百万。现有安全 LLM(PRIMUS/Foundation-Sec/DeepHat)通常只关注单一训练阶段,且数据/模型很少完全开源。
- 现有痛点:
- 现有基准仅覆盖知识或技能单一维度,缺少工具熟练度评估和开放题质量评价
- 持续预训练和 SFT 往往简陋执行,数据质量和规模不足
- 可复现性差:多数工作未释放数据或训练流程
- 核心idea:全流程开源:11.8B token 预训练语料 + 266K SFT 样本(用智能体流程生成) + 三维基准 = 可复现的完整网络安全 LLM 开发框架。
方法详解¶
整体框架¶
三阶段:(1) 域特定持续预训练(11.8B token 过滤后的安全语料)→ (2) SFT(200K+ 智能体增强对话 + 66K 种子数据)→ (3) DPO 偏好对齐。
关键设计¶
- 安全语料构建:收集11.8B token,包括安全博客/CVE/工具文档/教程等多源数据,经URL、域名和内容质量多层过滤
- 智能体增强 SFT 数据:以 66K 种子 Q&A 为基础,用智能体流程扩展到 266K——智能体自动生成变体问题、多角度回答、工具调用演示
- RedSage-Bench 三维基准:知识(30K MCQ)+ 实战技能 + 工具熟练度(CLI、Kali Linux)+ 240 开放题用 LLM-as-judge 质量评分
实验关键数据¶
主实验¶
| 模型 | SecEval↑ | CyberMetric↑ | SecBench↑ | 通用基准↑ |
|---|---|---|---|---|
| Llama-3.1-8B-Instruct | 基线 | 基线 | 基线 | 基线 |
| PRIMUS | +小幅 | +小幅 | - | -小幅 |
| RedSage | SOTA | SOTA | SOTA | 保持/提升 |
关键发现¶
- 在安全基准上全面 SOTA,同时通用能力保持或提升
- 智能体增强的 SFT 数据质量超越单纯数量堆叠
- 工具熟练度评估填补了现有基准的重要空白
亮点与洞察¶
- 全流程开源是最大价值——数据+模型+代码+基准全部公开,为网络安全 LLM 研究提供可复现基线
- 智能体流程生成 SFT 数据的方法可迁移到其他域特定 LLM 训练
局限性 / 可改进方向¶
- 仅 8B 参数,更大模型效果未验证
- 未结合 RL/GRPO 做推理能力增强
- 工具评估仅限 CLI/Kali,未覆盖 Metasploit/Burp Suite 等专业工具
相关工作与启发¶
- vs PRIMUS: PRIMUS 仅 835 个 SFT 样本;RedSage 266K 且智能体增强
- vs Foundation-Sec-8B: Cisco 作品但数据未开源;RedSage 全开源
评分¶
- 新颖性: ⭐⭐⭐ 方法不新但工程执行全面
- 实验充分度: ⭐⭐⭐⭐ 多基准、三维评估、质量评分
- 写作质量: ⭐⭐⭐⭐ 流程清晰,资源总结表很实用
- 价值: ⭐⭐⭐⭐⭐ 开源全流程对网络安全社区价值极高