Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data¶

会议: ACL 2025
arXiv: 2506.07390
代码: https://github.com/Xin-Cheng-Wen/PO4Vul
领域: LLM对齐 / 代码安全
关键词: 漏洞检测, 偏好优化, 推理数据合成, 课程学习, 三元组SFT

一句话总结¶

提出 ReVD 框架，通过双向漏洞推理数据合成 + 三元组 SFT（同时学习漏洞代码/修复代码/代码差异的推理）+ 课程化在线偏好优化（COPO），将 LLM 的漏洞检测准确率提升 12-23%，在 PrimeVul 和 SVEN 上达到 SOTA。

领域现状：LLM 在代码相关任务上表现出色，但在软件漏洞检测上仍然有限。CodeBERT/UniXcoder 等 CodePTM 通过微调做漏洞检测，但效果仍不足。
现有痛点：(a) 缺乏漏洞推理数据——现有数据只有代码标签没有"为什么是漏洞"的推理过程；(b) 模型学的是语义表示而非漏洞模式——漏洞代码和修复代码语义高度相似（GPT-4 在 78.6% 的配对上无法区分）。
核心矛盾：漏洞修复通常只涉及微小的代码变更（调整缓存大小、添加安全检查等），导致漏洞代码和修复代码几乎同义，LLM 基于语义的理解无法捕捉关键差异。
本文要解决什么？ 让 LLM 学习漏洞的推理模式（为什么有漏洞、怎么修复）而非仅语义表示。
切入角度：合成推理数据+三元组对比学习+课程化偏好优化。
核心 idea 一句话：用合成推理数据教 LLM "为什么有漏洞"，用三元组损失区分漏洞和修复代码，用课程偏好优化聚焦薄弱漏洞类型。

三模块流水线：BVD 数据合成 → T-SFT 三元组微调 → COPO 课程偏好优化

方法	PrimeVul Acc	PrimeVul F1	SVEN VP-Score
CodeBERT	基线	基线	基线
GPT-4 (零样本)	较低	较低	较低
ReVD	+12-23%	+10.3%	+18.15%