AD-LLM: Benchmarking Large Language Models for Anomaly Detection¶
会议: ACL 2025
arXiv: 2412.11142
代码: GitHub
领域: LLM / 异常检测
关键词: Anomaly Detection, LLM Benchmark, Zero-shot Detection, Data Augmentation, Model Selection
一句话总结¶
提出首个LLM异常检测基准AD-LLM,系统评估LLM在零样本检测、数据增强和无监督模型选择三个核心任务中的能力,发现GPT-4o零样本检测在多数数据集上超越传统训练方法,合成数据对灵活表示的检测器有效但对几何假设模型有害,推理型LLM模型选择接近最优但解释缺乏数据集针对性。
研究背景与动机¶
领域现状:异常检测(AD)是机器学习中的重要任务,在NLP中用于检测垃圾信息、虚假信息和异常用户行为。传统方法分为两类:端到端算法(直接处理原始文本)和两步法(先用语言模型提取嵌入,再用传统AD算法如LOF、iForest检测)。这些方法通常需要大量训练数据,且模型选择依赖领域专家经验。
现有痛点:(1) 许多AD任务缺乏标注数据,训练监督/无监督模型成本高;(2) AD数据通常严重不平衡——如保险欺诈样本极少;(3) 选择合适的AD模型需要大量试错和领域知识,实践中选择往往是随机的。LLM在文本生成、摘要等任务上表现优异,但在AD中的潜力尚未被系统研究。
核心矛盾:LLM具备广泛的预训练知识和强大的语义理解能力,理论上应该能在AD的多个环节发挥作用,但缺乏统一的评估框架来验证这一假设——现有研究要么只关注单一任务(如零样本检测),要么只覆盖特定模态(如工业图像AD)。
本文目标 构建首个覆盖检测、增强、选择三大核心任务的LLM+AD统一基准,系统回答"LLM在NLP异常检测的哪些环节、以什么方式、能发挥多大作用"。
切入角度:将LLM在AD中的角色分解为三个互补任务——作为检测器(替代传统方法)、作为数据生成器(缓解数据稀缺)、作为顾问(推荐模型),对每个角色设计实验协议和评估指标。
核心 idea:LLM可以从检测、增强、选择三个维度全面赋能NLP异常检测,但效果因任务和模型特性而异。
方法详解¶
整体框架¶
AD-LLM基准围绕三个核心任务设计:Task 1 零样本检测——用LLM预训练知识直接判断样本是否异常;Task 2 数据增强——用LLM生成合成样本或类别描述来提升传统AD模型;Task 3 模型选择——用LLM分析数据集属性和模型描述来推荐最优AD模型。评估覆盖5个NLP数据集(AG News、BBC News、IMDB Reviews、N24 News、SMS Spam),使用AUROC和AUPRC两个指标,对比18种传统无监督AD基线。
关键设计¶
-
零样本异常检测(Task 1):
- 功能:利用LLM预训练知识直接判断文本样本是否异常,无需任务特定训练数据
- 核心思路:设计两种评估设置——"Normal Only"(仅提供正常类别名 \(\mathcal{C}_{\text{normal}}\))和"Normal + Anomaly"(同时提供异常类别名 \(\mathcal{C}_{\text{anomaly}}\))。通过提示模板 \(\mathcal{P} = T(x_i, \mathcal{C}_{\text{normal}}, \mathcal{C}_{\text{anomaly}}^*)\) 构造输入,LLM输出异常分数 \(s\) 和推理解释 \(r\),即 \((r, s) = f_{\text{LLM}}(\mathcal{P})\)。测试Llama 3.1 8B、GPT-4o、DeepSeek-V3三个模型
- 设计动机:模拟真实场景中标注数据缺乏的情况,验证LLM预训练知识对AD的直接价值;两种设置对应不同先验知识水平
-
LLM驱动的数据增强(Task 2):
- 功能:通过LLM生成合成数据和类别描述,缓解AD数据稀缺和不平衡问题
- 核心思路:分两条路径——(a) 合成样本生成:采用两步策略避免重复性,先生成多粒度关键词组(粗粒度/中粒度/细粒度),再基于关键词生成样本 \(\tilde{x}_i\),多轮生成时调整随机种子、温度和模板确保多样性,最终合并 \(\mathcal{D}_{\text{DA}} = \mathcal{D}_{\text{small\_train}} \cup \mathcal{D}_{\text{synth}}\) 训练AD模型;(b) 类别描述生成:为正常/异常类别生成文本描述 \(d_{\text{normal}}, d_{\text{anomaly}}\),嵌入检测提示中增强语义推理,更新提示为 \(\mathcal{P} = T(x_i, (\mathcal{C}_{\text{normal}}, d_{\text{normal}}), (\mathcal{C}_{\text{anomaly}}, d_{\text{anomaly}})^*)\)
- 设计动机:直接提示LLM生成样本会产生高度重复输出;关键词-样本两步法+多粒度控制确保合成数据的多样性和语义一致性
-
LLM辅助模型选择(Task 3):
- 功能:利用LLM推理能力为给定数据集推荐最优的无监督AD模型
- 核心思路:向LLM提供结构化输入——数据集描述(名称、大小、背景、正常/异常类别、文本长度统计、代表样本)和候选模型描述(论文摘要),LLM据此输出推荐模型及理由。选用推理增强型模型(o1-preview、o1、o3-mini、DeepSeek-R1),每个数据集查询5次取结果,同时设计无上下文对照实验检验LLM的内在偏好
- 设计动机:传统模型选择依赖历史性能数据或领域专家,对新数据集不适用;LLM的广泛知识可能实现零样本模型推荐
实验关键数据¶
主实验:零样本检测性能对比¶
| 模型 | 设置 | AG News AUROC | BBC News AUROC | IMDB AUROC | N24 News AUROC | SMS Spam AUROC |
|---|---|---|---|---|---|---|
| GPT-4o | Normal Only | 0.933 | 0.957 | 0.935 | 0.767 | 0.794 |
| GPT-4o | Normal+Anomaly | 0.929 | 0.992 | 0.967 | 0.990 | 0.986 |
| DeepSeek-V3 | Normal+Anomaly | 0.927 | 0.958 | 0.963 | 0.951 | 0.954 |
| Llama 3.1 8B | Normal+Anomaly | 0.875 | 0.861 | 0.863 | 0.878 | 0.949 |
| 最优基线 | — | 0.923 | 0.973 | 0.737 | 0.832 | 0.940 |
GPT-4o在Normal+Anomaly设置下4/5数据集超越最优基线,IMDB上AUROC从基线0.737提升至0.967(+31%)。
数据增强效果分析¶
| 检测器类型 | 代表模型 | 增强后效果 | 原因分析 |
|---|---|---|---|
| 灵活表示学习 | AE, VAE, LUNAR, ECOD | ✅ 显著提升,接近全量数据性能 | 重构/经验分布/图聚合目标可利用丰富嵌入流形 |
| 固定几何假设 | DeepSVDD, iForest, LOF | ❌ 性能下降 | 合成数据方差扩大超球面/扰乱隔离统计/模糊局部密度 |
| 对抗训练 | SO_GAAL | ❌ 性能下降 | 方差扩大正常数据定义,判别器收敛困难 |
模型选择:LLM推荐 vs 基线¶
| 推理LLM | 最频繁推荐 | 推荐模型平均AUROC | 最优基线AUROC | 随机选择平均AUROC |
|---|---|---|---|---|
| o1-preview | OpenAI+LUNAR (13/25) | 接近最优 | 0.923-0.992 | 0.65-0.80 |
| DeepSeek-R1 | OpenAI+ECOD (16/25) | 接近最优 | — | — |
| o1 | OpenAI+DeepSVDD (11/25) | 偏低 | — | — |
| o3-mini | BERT+DeepSVDD (10/25) | 偏低 | — | — |
关键发现¶
- 零样本检测是LLM在AD中最有前景的应用:GPT-4o在无需任何训练数据的情况下,4/5数据集超越需要训练的传统方法,IMDB数据集提升最为显著(+31% AUROC)
- 上下文越丰富检测越好:从Normal Only到Normal+Anomaly设置,所有LLM的AUROC和AUPRC均提升,说明异常类别先验知识对检测至关重要
- 合成数据是一把双刃剑:对学习灵活表示的模型(AE/VAE/ECOD/LUNAR)有效,但对依赖固定几何假设的模型(iForest/LOF/DeepSVDD)有害——合成数据引入的方差会破坏这些模型的核心假设
- LLM模型选择存在内在偏好:无上下文时LLM已有固定偏好(如o1偏好VAE),提供上下文后偏好发生偏移且更接近最优,说明LLM同时受预训练偏差和输入信息影响
- 解释的针对性是开放问题:LLM给出的模型选择理由往往是泛化的(如"适合高维数据"),缺乏对具体数据集特性的针对性分析
亮点与洞察¶
- 三任务统一框架的设计具有系统性:将LLM在AD中的角色拆解为检测/增强/选择三个互补维度,覆盖了从无训练数据到有训练数据、从直接检测到间接辅助的完整谱系。这种分解方式为后续研究提供了清晰的组织框架
- 合成数据对不同模型的对立效果揭示了深层机制:灵活模型(AE/VAE)受益是因为丰富的嵌入流形帮助重构学习,几何模型(iForest/LOF)受损是因为异质合成数据破坏了隔离/密度假设。这个发现对"何时该用合成数据"提供了明确的指导
- 无上下文对照实验设计巧妙:通过比较有/无上下文时LLM的模型推荐偏好变化,分离了预训练偏差和输入信息的各自影响,为理解LLM推理机制提供了新视角
局限与展望¶
- 数据集范围有限:仅5个NLP分类数据集,且正常/异常类别边界清晰——对于异常定义模糊的真实场景(如金融欺诈、医疗异常)尚未验证
- 未探索少样本和微调:零样本设置虽然代表极端情况,但实践中通常可获取少量标注数据,few-shot和微调策略可能带来更大的性能提升
- 类别描述增强效果不稳定:Table 2中描述增强在部分数据集上反而降低性能(如Llama在N24 News上AUROC下降0.088),需要更精细的描述质量控制
- 模型选择的可解释性不足:LLM推荐理由过于泛化,无法帮助用户理解"为什么这个模型适合这个数据集",限制了实际可信度
- 推理成本未被充分讨论:零样本检测需要对每个样本调用LLM API,在大规模数据集上的时间/经济成本可能远超传统方法
相关工作与启发¶
- vs Xu & Ding (2024):后者提出LLM在AD中的分类法(检测工具vs生成工具),但仅为概念框架缺乏实验验证;AD-LLM提供了首个系统性实验基准
- vs MMAD (Jiang et al., 2024b):后者聚焦工业图像AD的多模态场景;AD-LLM覆盖NLP文本AD,填补了文本模态的空白
- vs Liu et al. (2024b):后者评估LLM嵌入做OOD检测(余弦距离+各向同性嵌入),但未探索数据增强和模型选择;AD-LLM覆盖更完整的AD流程
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个覆盖三大AD任务的LLM基准,框架设计系统性强
- 实验充分度: ⭐⭐⭐⭐ 5个数据集+18种基线+3-4种LLM,覆盖面广,但数据集类型单一
- 写作质量: ⭐⭐⭐⭐ 结构清晰,问题定义形式化,图表丰富
- 价值: ⭐⭐⭐⭐ 为LLM+AD研究提供了统一评估平台和实验洞察
相关论文¶
- [ACL 2025] Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models
- [ACL 2025] CodeMEnv: Benchmarking Large Language Models on Code Migration
- [ACL 2025] Mis-prompt: Benchmarking Large Language Models for Proactive Error Handling
- [ACL 2025] Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories
- [NeurIPS 2025] Benchmarking Large Language Models for Zero-Shot and Few-Shot Phishing URL Detection