Can LLMs Outshine Conventional Recommenders? A Comparative Evaluation¶

会议: NeurIPS 2025 arXiv: 2503.05493 代码: RecBench 领域: 推荐系统 / LLM评估 关键词: LLM-as-RS, RecBench, CTR预测, 序列推荐, 物品表示, 推理效率

一句话总结¶

提出 RecBench 综合评估框架，在5个领域数据集上系统对比17个LLM与10个传统DLRM，发现LLM推荐器在CTR任务上AUC提升最高5%、在序列推荐上NDCG@10提升最高170%，但推理速度慢10-1000倍，而传统DLRM结合LLM语义嵌入（LLM-for-RS）可以20倍更快的速度达到LLM约95%的性能，是当前最具工业可行性的方案。

研究背景与动机¶

领域现状：LLM与推荐系统的融合（LLM+RS）是近年热点，分为两种范式：LLM-for-RS（LLM作为特征增强插件）和 LLM-as-RS（LLM直接作为推荐器）。后者在冷启动、可解释推荐等场景展现潜力，但缺乏系统性评估。
现有痛点：已有基准（LLMRec、PromptRec、OpenP5等）存在三大不足——(a) 仅评估单一推荐场景（pair-wise或list-wise）；(b) 物品表示形式覆盖不全，通常仅用文本或唯一ID；(c) 评估模型数量有限，且完全忽略推理效率指标。
核心问题：LLM在推荐任务上的准确率优势是否足以弥补推理效率的巨大劣势？不同物品表示方式如何影响LLM的推荐能力？
本文切入角度：构建迄今最全面的LLM推荐评测基准RecBench，首次同时评估准确率和效率两个维度，覆盖4种物品表示、2种推荐场景、27个模型、5个数据集。

方法详解¶

整体框架¶

RecBench 评估矩阵：5个数据集（H&M时尚、MIND新闻、MicroLens视频、Goodreads书籍、Amazon CDs音乐）× 4种物品表示（唯一ID、文本、语义嵌入、语义标识符）× 2种推荐任务（CTR预测、序列推荐）× 27个模型（17个LLM + 10个DLRM），同时测量准确率指标和推理延迟。

四种物品表示方式¶

Unique Identifier（唯一ID）：传统方法，每个物品分配一个随机初始化的embedding向量，通过协同过滤信号学习语义。
Text（文本描述）：使用物品标题等文本特征，通过词嵌入取均值得到物品表示，天然适配LLM的文本理解能力。
Semantic Embedding（语义嵌入）：用预训练LLM（如Llama-1 7B）编码物品文本得到稠密向量，作为DLRM的初始化输入，引入丰富的通用语义。
Semantic Identifier（语义标识符）：先用SentenceBERT提取物品嵌入，再用RQ-VAE离散化为4层×256码本的编码序列。语义相似的物品共享更长的公共子序列，既压缩词表又保持语义关系。

两种推荐场景¶

Pair-wise推荐（CTR预测）：输入用户-物品对，预测点击概率。模型分为6组（A-F）：

Group A：传统DLRM + 唯一ID（DNN、DeepFM、DCN、DCNv2、AutoInt、GDCN等9个模型）
Group B：传统DLRM + 文本（DNN_text、DCNv2_text等4个模型）
Group C：传统DLRM + 语义嵌入（DNN_emb、GDCN_emb等4个模型，LLM-for-RS范式）
Group D：LLM + 唯一ID（P5系列，物品ID作为特殊token）
Group E：LLM + 文本（GPT-3.5、Llama系列、Qwen系列等，支持零样本和微调）
Group F：LLM + 语义标识符（SID-BERT、SID-OPT）

List-wise推荐（序列推荐）：输入用户历史交互序列，预测下一个物品。模型分为4组（G-J），引入条件Beam Search（CBS）技术——利用语义标识符树约束解码路径，确保生成的token序列对应有效物品。

训练策略¶

LLM微调采用LoRA：CTR任务rank=32/alpha=128，序列推荐rank=128/alpha=128
学习率：LLM用1e-4，DLRM用1e-3
所有实验在单张A100 GPU上完成，结果取5次运行平均

实验关键数据¶

CTR预测（Pair-wise，AUC指标）¶

物品表示	代表模型	Overall AUC	CPU延迟(ms)	GPU延迟(ms)
唯一ID（DLRM最佳）	GDCN	0.6825	1.20	2.02
文本（DLRM最佳）	GDCN_text	0.6923	5.09	3.77
语义嵌入（DLRM最佳）	DNN_emb	0.7171	1.42	2.09
文本（LLM微调最佳）	Mistral-2 7B	0.7578	7680	76.14
零样本LLM最佳	GLM-4 9B	0.6231	9690	83.38

关键发现：Mistral-2微调后AUC达0.7578，比最佳DLRM（DNN_emb 0.7171）高约5.7%，但CPU推理慢5400倍（7680ms vs 1.42ms）。

序列推荐（List-wise，NDCG@10指标）¶

物品表示	代表模型	Overall NDCG@10	CPU延迟(ms)
唯一ID（DLRM最佳）	SASRec_24L	0.0698	103.41
唯一ID（LLM最佳）	P5-BERT_base	0.1025	41.54
语义ID（LLM+CBS最佳）	SID-BERT_base-CBS	0.1877	1900
语义ID（大模型+CBS）	SID-Llama-3 7B-CBS	0.1607	177540

关键发现：SID-BERT_base-CBS的NDCG@10（0.1877）比SASRec_24L（0.0698）提升169%，但推理时间增加18倍。SID-Llama-3 7B-CBS推理时间高达177秒/样本，完全不可实际部署。

零样本LLM表现¶

大多数LLM在零样本CTR任务上AUC在0.50附近徘徊（接近随机），仅Mistral（0.6199）和GLM-4（0.6231）表现尚可。专用推荐模型RecGPT（0.4952）和P5_Beauty（0.5049）的零样本泛化能力极差。Qwen-2系列展现出与模型规模正相关的零样本推荐能力（0.5B→1.5B→7B: 0.5413→0.5707→0.6075）。

微调带来的提升¶

指令微调使LLM的CTR AUC相对提升22%-43%。例如Llama-3 8B从零样本0.5252提升至微调后0.7508。

亮点与洞察¶

"LLM-for-RS"是当前最优权衡：DLRM+LLM语义嵌入（Group C）以极低延迟（~2ms GPU）达到DNN_emb AUC=0.7171，约为最佳LLM（0.7578）的94.6%性能，速度快36倍。这是工业部署最实际的方案。
语义标识符在序列推荐中优势巨大：SID表示使浅层网络即可捕获用户兴趣模式，SID-SASRec_3L-CBS（0.0306）已远超SASRec_3L（0.0096）。但随着层数增加优势递减，说明深层ID-based模型也能学到类似信息。
条件Beam Search（CBS）是关键技术：CBS通过语义标识符树约束解码，确保生成有效物品。SID-BERT_base从0.0941提升至CBS后0.1877，几乎翻倍。
预训练语言模式与用户兴趣模式存在抽象相似性：BERT_base用唯一ID（无文本）在序列推荐上（0.1025）超过同架构的SASRec_12L（0.0672），暗示语言建模的序列模式可迁移到用户行为建模。
模型规模不是万能的：在序列推荐中，SID-BERT_base-CBS（0.1877）反而大幅超过SID-Llama-3 7B-CBS（0.1607），小模型在特定设置下可能更优。

局限性 / 可改进方向¶

仅测量单样本推理延迟，未考虑批量推理和KV-cache等加速技术的影响
未评估LLM在冷启动、跨域推荐等特殊场景的优势——这可能是LLM-as-RS真正有价值的方向
语义嵌入仅使用Llama-1 7B，未探索更强编码器（如更新的Llama-3或领域专用模型）的效果
5个数据集均经过统一预处理裁剪为相似规模，可能不反映真实工业场景的数据分布

评分¶

新颖性: ⭐⭐⭐⭐ 首个同时覆盖准确率和效率、4种物品表示、2种任务的全面LLM推荐基准
实验充分度: ⭐⭐⭐⭐⭐ 27模型×5数据集×4物品表示，结果取5次平均，规模罕见
写作质量: ⭐⭐⭐⭐ 实验分析清晰有条理，结论有说服力
价值: ⭐⭐⭐⭐⭐ 对推荐系统社区有重要战略指导意义——明确了LLM-for-RS优于LLM-as-RS的结论