CoVE: Compressed Vocabulary Expansion Makes Better LLM-based Recommender Systems¶

会议: ACL 2025
arXiv: 2506.19993
代码: GitHub (有)
领域: recommender
关键词: LLM推荐系统, 词表扩展, 嵌入压缩, 序列推荐, 哈希压缩

一句话总结¶

提出 CoVE 框架，通过扩展 LLM 词表为每个物品分配唯一 token ID 和嵌入，将序列推荐任务转化为 next-token prediction，相比现有方法推荐准确率提升最高 62%，推理速度提升约 100 倍，并通过哈希嵌入压缩解决大规模场景的内存问题。

研究背景与动机¶

领域现状: 大语言模型（LLM）在推荐系统中的应用日益增多，主要有两种范式：(a) 用 LLM 提供嵌入初始化非 LLM 推荐模型；(b) 微调 LLM 直接生成推荐物品标题，再通过嵌入检索匹配真实物品（如 BIGRec）。
现有痛点:
方式 (a) 仅利用 LLM 的嵌入能力，未发挥其内容理解能力
方式 (b) 即 finetune-and-retrieval 框架存在三大问题：LLM 需准确预测多 token 的物品标题（困难）、生成的标题可能不存在于物品空间（幻觉问题）、文本生成推理速度慢
核心矛盾: LLM 具有强大的 next-token prediction 能力，但现有推荐框架未能直接利用这一能力，反而要求 LLM 完成更困难的多 token 标题生成任务。
本文要解决什么: 如何设计一个框架让 LLM 直接利用 next-token prediction 进行推荐，同时解决大规模物品空间下嵌入表的内存效率问题。
切入角度: 借鉴领域自适应中的词表扩展技术，为每个物品分配唯一 token，将推荐转化为单 token 预测问题。
核心 idea 一句话: 扩展 LLM 词表使每个物品对应一个唯一 token，通过 next-token prediction 的 logits 直接推荐，用哈希压缩解决嵌入表内存瓶颈。

方法详解¶

整体框架¶

CoVE 的核心流程： 1. 词表扩展: 为物品空间 \(\mathcal{I}\) 中的每个物品添加唯一 token（如 <|205|>）到 LLM 的 tokenizer 中 2. 嵌入表扩展: 每个物品 token 对应一个独立的可训练嵌入向量 3. 微调: 同时训练物品嵌入表、LoRA adapter 和 lm_head，将 LLM 与推荐任务对齐 4. 推理: 输入用户历史交互序列，取 logits 中物品 ID 对应维度的分数进行排序推荐，无需生成文本

关键设计¶

1. 微调任务设计¶

做什么: 将推荐任务建模为标准的 next-token prediction
核心思路: 训练样本包含任务指令（Task Instruction）、用户历史（Task Input，包含物品 ID 和标题）、目标物品（Task Output）。训练时最小化 next-token prediction loss；推理时只需要 lm_head 输出的 logits 中最后 \(|\mathcal{I}|\) 维对应的分数
设计动机: 将多 token 标题生成简化为单 token ID 预测，消除幻觉，大幅加速推理

2. 哈希嵌入压缩¶

做什么: 将物品嵌入表从 \(|\mathcal{I}|\) 压缩到 \(|\mathcal{S}|\)（\(|\mathcal{S}| \ll |\mathcal{I}|\)）
核心思路: 定义 \(k\) 个通用哈希函数 \(h_1, \ldots, h_k\)，每个将物品映射到共享嵌入空间。物品 \(i\) 的嵌入通过平均其哈希映射的共享嵌入得到：

\[\mathbf{e}_i = \frac{1}{k} \sum_{j=1}^{k} \mathbf{e}_{h_j(i)}\]

哈希函数采用简单算术运算：\(h(i) = ((ai + b) \bmod p) \bmod |\mathcal{S}|\)

设计动机: 大规模场景下（如 Amazon 数据集有 4819 万物品），直接存储嵌入表需要约 96GB GPU 内存，哈希压缩使训练可行

损失函数/训练策略¶

损失函数: 标准 next-token prediction loss（交叉熵）
训练配置:
Beauty/Toys/Sports 数据集：LLaMA-3.2-3B，学习率 \(10^{-4}\)，batch size 32，LoRA rank 8，alpha 16，最多 10 epochs
Video Games 数据集：LLaMA-2-7B + 4-bit QLoRA
可训练参数: 物品嵌入表、LoRA adapter、lm_head

实验关键数据¶

主实验¶

在 Amazon Beauty/Toys/Sports 三个数据集上（压缩率=2），CoVE vs. 最佳 baseline（TIGER）：

数据集	指标	TIGER	CoVE	提升
Beauty	NG@5	0.0321	0.0498	+55%
Beauty	HR@10	0.0648	0.1009	+56%
Toys	NG@5	0.0371	0.0509	+37%
Toys	HR@5	0.0521	0.0719	+38%
Sports	NG@5	0.0204	0.0296	+45%
Sports	HR@10	0.0400	0.0624	+56%

Video Games 数据集上 CoVE vs. BIGRec (finetune-and-retrieval)：

指标	BIGRec	CoVE	提升
NG@5	0.0189	0.0221	+17%
HR@10	0.0329	0.0437	+33%
HR@20	0.0457	0.0621	+36%

推理速度：CoVE 为 6.5 samples/s，BIGRec 为 0.066 samples/s，约 100 倍加速。

消融实验¶

物品标题和嵌入表训练的重要性（Beauty 数据集）：

设置	NG@5	HR@5
仅可训练嵌入（无标题）	0.045	0.0622
仅标题信息（冻结嵌入）	0.0057	0.0094
CoVE（两者结合）	0.0498	0.0714

嵌入压缩鲁棒性：在 16 倍压缩率下，CoVE 在 HR@5 和 NG@5 上仍然超过 SOTA baseline（TIGER），仅在 Toys 的 HR@10 上例外。

关键发现¶

CoVE 在四个数据集上全面超越所有 baseline，NG 和 HR 指标提升 30%-62%
微调后的 LLM 能正确学习物品 ID 与标题的映射关系，这是高质量推荐的关键
冻结嵌入表会导致性能急剧下降，说明学习高质量物品嵌入至关重要
嵌入压缩对不同数据集的鲁棒性不同，Sports 和 Toys 对8倍压缩仍保持稳定，而 Beauty 更敏感

亮点与洞察¶

巧妙的问题转化: 将推荐从 "生成物品标题" 转化为 "预测物品 ID token"，一举解决幻觉、速度和准确率三个问题
理论与实践的平衡: 哈希嵌入压缩使框架在大规模工业场景中可用（48M 物品场景下从 96GB 降低内存开销）
实验充分: 4 个数据集、12+ baseline 比较、多种消融、推理速度分析、case study，论据完整
case study 有启发: 微调后 LLM 能在生成时自动输出正确的 ID-标题对应关系，说明 CoVE 确实让 LLM 学到了物品语义

局限性/可改进方向¶

嵌入压缩仅探索了哈希方法，更先进的压缩技术（量化、低秩近似）值得探索
仅在 Amazon 电商数据集上实验，缺少其他领域（新闻、视频、音乐）的验证
未讨论冷启动问题：新物品如何快速获得高质量嵌入
压缩率对不同数据集敏感度不同，缺乏自适应压缩策略

评分¶

新颖性: ⭐⭐⭐⭐ — 将词表扩展应用到推荐系统是新颖的视角，问题转化巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 4 数据集、12+ baseline、多维度消融、推理速度分析，非常完整
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述到位，图表设计合理
价值: ⭐⭐⭐⭐ — 100 倍推理加速 + 准确率大幅提升，工业应用价值高