GRAM: Generative Recommendation via Semantic-aware Multi-granular Late Fusion¶

会议: ACL 2025
arXiv: 2506.01673
代码: https://github.com/skleee/GRAM
领域: 文本生成
关键词: 生成式推荐, 多粒度融合, 语义翻译, LLM推荐, 协同过滤

一句话总结¶

提出 GRAM 生成式推荐模型，通过语义到词汇的翻译（将隐式物品关系编码到 LLM 词汇空间）和多粒度迟融合（分别编码不同粒度提示后在解码时融合），在四个基准上比八个 SOTA 方法在 Recall@5 上提升 11.5-16.0%。

研究背景与动机¶

领域现状：生成式推荐将推荐建模为文本到文本的生成任务，利用 LLM 的知识生成推荐。但现有方法在两方面有不足。
现有痛点：(a) 缺乏隐式物品关系建模——协同过滤信号和层次分类关系难以用文本表示；(b) 物品信息丰富但冗长——将所有信息拼接为一个提示会导致信息丢失和效率低下。
核心矛盾：推荐需要的"协同过滤"信号（用户行为模式）和"语义"信息（物品描述）是两种不同类型的知识，如何在 LLM 框架中统一？
本文要解决什么？ 将隐式关系和丰富语义高效地融入生成式推荐。
切入角度：用语义到词汇的翻译桥接协同信号和LLM词汇空间；用多粒度迟融合避免长提示的信息损失。
核心idea一句话：语义翻译编码物品关系 + 多粒度迟融合保留丰富语义 = 更强生成式推荐。

方法详解¶

整体框架¶

GRAM 包含两个核心组件：(1) 语义到词汇翻译（Semantic-to-Lexical Translation）——将物品的层次分类和协同过滤关系编码为 LLM 词汇空间中的特殊 token；(2) 多粒度迟融合（Multi-granular Late Fusion）——为不同粒度的物品信息（标题/描述/类别/评论等）使用独立编码器，在解码时才融合。

关键设计¶

语义到词汇翻译:
做什么：将隐式物品关系注入 LLM 词汇空间
核心思路：(a) 用层次分类结构构建分类 token（如"电子产品/手机/智能手机"编码为 token 序列）；(b) 用协同过滤信号学习物品嵌入，将嵌入映射到最近的词汇 token
设计动机：LLM 天然理解词汇，将推荐信号"翻译"到词汇空间比添加外部嵌入更自然
多粒度迟融合:
做什么：高效整合不同粒度的物品信息
核心思路：为标题、描述、类别、评论等不同粒度的信息使用独立的轻量级编码器，各自产生压缩表示，在解码器的 cross-attention 中才进行融合
设计动机：早期融合（拼接所有信息为一个长提示）会导致位置偏差和注意力稀释；迟融合让每种信息都被充分编码

损失函数 / 训练策略¶

标准自回归下一 token 预测损失
物品 ID 通过语义翻译变为 token 序列后用生成方式预测
基于 LLaMA-7B 等 LLM 骨干

实验关键数据¶

主实验（四个推荐基准）¶

方法	Recall@5	NDCG@5	说明
BIGRec (best baseline)	基线	基线	之前 SOTA
GRAM	+11.5~16.0%	+5.3~13.6%	全面超越

消融实验¶

配置	效果	说明
w/o 语义翻译	Recall 下降显著	隐式关系重要
w/o 多粒度迟融合	性能下降	早期融合损失信息
不同粒度组合	标题+描述+类别最佳	过多粒度收益递减

关键发现¶

语义到词汇翻译对协同过滤稀疏场景改进最大——精确编码物品关系弥补了数据稀疏
迟融合比早期融合在所有数据集上都更优——信息损失减少
在四个不同领域（电影/书/服装/电商）数据集上一致有效——泛化性好

亮点与洞察¶

"语义翻译"将推荐信号自然嵌入 LLM——不是强行添加外部嵌入，而是"说LLM听得懂的话"。
多粒度迟融合避免了长上下文的注意力问题——各信息源独立编码确保都被充分利用。
两个创新正交互补——语义翻译解决"什么信息"，迟融合解决"怎么利用"。
11.5-16.0% 的 Recall 提升在推荐系统领域很显著。

局限性 / 可改进方向¶

语义翻译的物品 ID token 化需要预定义层次结构——不适用于无分类体系的场景
多粒度编码器增加了模型参数和推理开销
仅在离线评估上验证——在线 A/B 测试效果未知

评分¶

新颖性: ⭐⭐⭐⭐ 语义翻译和多粒度迟融合都是巧妙设计
实验充分度: ⭐⭐⭐⭐ 四数据集+八基线+充分消融
写作质量: ⭐⭐⭐⭐ 方法清晰
价值: ⭐⭐⭐⭐ 对生成式推荐有实质性贡献