AD-LLM: Benchmarking Large Language Models for Anomaly Detection¶

会议: ACL 2025
arXiv: 2412.11142
代码: GitHub
领域: LLM / 异常检测
关键词: 异常检测, LLM基准, 零样本检测, 数据增强, 模型选择, NLP异常

一句话总结¶

首个系统评估 LLM 在 NLP 异常检测中角色的基准 AD-LLM——覆盖三个关键任务：(1) 零样本检测（LLM 预训练知识直接做 AD），(2) 数据增强（生成合成数据/类别描述提升 AD 模型），(3) 模型选择（LLM 推荐无监督 AD 模型）。多数据集实验发现 LLM 零样本 AD 表现出色，精心设计的增强有用，但模型选择的可解释性仍是挑战。

背景与动机¶

异常检测（AD）是机器学习的重要任务，在 NLP 中用于检测垃圾信息/错误信息/异常行为等。LLM 在文本生成/摘要等方面成功但在 AD 中的潜力研究不足。三个维度的需求：

零样本检测：很多 AD 任务缺乏标注数据，LLM 预训练知识可以无需训练直接做 AD
数据增强：AD 数据通常严重不平衡/稀缺，LLM 生成合成数据可缓解
模型选择：选择合适的 AD 模型通常需大量试错和领域知识，LLM 可能自动推荐

核心问题¶

LLM 在 NLP 异常检测的三个核心环节（检测/增强/选择）中能发挥什么作用？各自的效果和局限如何？

方法详解¶

任务一：零样本异常检测¶

直接用 LLM 判断样本是否异常并提供解释
测试不同提示策略（基础/增强上下文/异常类别描述）
不需要任务特定训练数据

任务二：数据增强¶

LLM 生成合成异常/正常样本扩充训练集
LLM 生成类别级描述增强语义推理
评估增强后下游 AD 模型性能变化

任务三：模型选择¶

输入数据集属性和模型描述，让 LLM 推荐最适合的无监督 AD 模型
评估推荐模型 vs 随机选择 vs Oracle 的性能差距

实验关键数据¶

关键发现¶

任务	核心结论
零样本检测	LLM 常超越传统方法，无需任务特定数据
上下文增强	添加异常类别名/描述性提示进一步提升检测质量
数据增强	LLM 生成数据提升 AD 性能，但效果因模型和数据集而异
模型选择	可接近顶级基线，但可解释性和数据集特定推荐仍是开放问题

评估规模¶

多个 NLP 异常检测数据集
零样本任务对比多种传统 AD 方法
增强任务对比有/无 LLM 增强
选择任务对比 LLM 推荐 vs 随机/历史最优

亮点¶

首个 LLM+AD 综合基准：三任务统一框架
零样本 AD 效果超预期：LLM 的预训练知识对异常检测有直接价值
类别描述增强是低成本高回报策略：只需生成描述不需生成样本
开源 MIT 协议：方便社区复现和扩展

局限性 / 可改进方向¶

仅 NLP 异常检测：未覆盖表格/图像/时间序列
零样本依赖 LLM 质量：不同 LLM 表现可能差异大
模型选择缺乏可解释性：LLM 给的推荐理由不够具体/可验证
增强效果不稳定：某些数据集上增强反而降低性能

与相关工作的对比¶

vs Xu & Ding 2024：提出分类但无实验基准；AD-LLM 提供完整基准
vs MMAD：聚焦工业图像 AD；AD-LLM 聚焦 NLP
vs Liu et al. 2024（OOD 检测）：仅评估嵌入距离检测；AD-LLM 覆盖三个任务

启发与关联¶

LLM 作为异常检测器的"零成本"特性对快速部署有吸引力
数据增强 + 零样本检测的组合可能是 AD 的"最佳实践"
模型选择是 AutoML 在 AD 领域的 LLM 化尝试——方向正确但需继续探索

评分¶

新颖性: ⭐⭐⭐⭐ 首个 LLM+AD 基准，三任务定义完整
实验充分度: ⭐⭐⭐⭐ 多数据集×三任务，覆盖面广
写作质量: ⭐⭐⭐⭐ 框架清晰，任务定义明确
价值: ⭐⭐⭐⭐ 为 LLM 在 AD 中的应用提供了系统性参考