RedSage: A Cybersecurity Generalist LLM¶

会议: ICLR 2026
arXiv: 2601.22159
代码: 开源（数据+模型+代码）
领域: 模型压缩 / AI安全
关键词: 网络安全LLM, 持续预训练, 域特定微调, 基准测试, 工具调用

一句话总结¶

RedSage 是开源的 8B 网络安全专用 LLM，通过 11.8B token 安全语料持续预训练 + 266K 样本智能体增强 SFT + 偏好对齐三阶段训练，配套提出覆盖知识/技能/工具三维的 RedSage-Bench（30K MCQ + 240 开放题），在现有网络安全基准上达到 SOTA。

研究背景与动机¶

领域现状：网络安全威胁日益复杂，全球安全人才缺口数百万。现有安全 LLM（PRIMUS/Foundation-Sec/DeepHat）通常只关注单一训练阶段，且数据/模型很少完全开源。
现有痛点：
现有基准仅覆盖知识或技能单一维度，缺少工具熟练度评估和开放题质量评价
持续预训练和 SFT 往往简陋执行，数据质量和规模不足
可复现性差：多数工作未释放数据或训练流程
核心idea：全流程开源：11.8B token 预训练语料 + 266K SFT 样本（用智能体流程生成） + 三维基准 = 可复现的完整网络安全 LLM 开发框架。

方法详解¶

整体框架¶

三阶段：(1) 域特定持续预训练（11.8B token 过滤后的安全语料）→ (2) SFT（200K+ 智能体增强对话 + 66K 种子数据）→ (3) DPO 偏好对齐。

关键设计¶

安全语料构建：收集11.8B token，包括安全博客/CVE/工具文档/教程等多源数据，经URL、域名和内容质量多层过滤
智能体增强 SFT 数据：以 66K 种子 Q&A 为基础，用智能体流程扩展到 266K——智能体自动生成变体问题、多角度回答、工具调用演示
RedSage-Bench 三维基准：知识（30K MCQ）+ 实战技能 + 工具熟练度（CLI、Kali Linux）+ 240 开放题用 LLM-as-judge 质量评分

实验关键数据¶

主实验¶

模型	SecEval↑	CyberMetric↑	SecBench↑	通用基准↑
Llama-3.1-8B-Instruct	基线	基线	基线	基线
PRIMUS	+小幅	+小幅	-	-小幅
RedSage	SOTA	SOTA	SOTA	保持/提升

关键发现¶

在安全基准上全面 SOTA，同时通用能力保持或提升
智能体增强的 SFT 数据质量超越单纯数量堆叠
工具熟练度评估填补了现有基准的重要空白

亮点与洞察¶

全流程开源是最大价值——数据+模型+代码+基准全部公开，为网络安全 LLM 研究提供可复现基线
智能体流程生成 SFT 数据的方法可迁移到其他域特定 LLM 训练

局限性 / 可改进方向¶

仅 8B 参数，更大模型效果未验证
未结合 RL/GRPO 做推理能力增强
工具评估仅限 CLI/Kali，未覆盖 Metasploit/Burp Suite 等专业工具

评分¶

新颖性: ⭐⭐⭐ 方法不新但工程执行全面
实验充分度: ⭐⭐⭐⭐ 多基准、三维评估、质量评分
写作质量: ⭐⭐⭐⭐ 流程清晰，资源总结表很实用
价值: ⭐⭐⭐⭐⭐ 开源全流程对网络安全社区价值极高