Align³GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation¶
会议: AAAI 2026 (Oral)
arXiv: 2511.11255v2
代码: 无
领域: 推荐系统 / 信息检索
关键词: 生成式推荐, LLM对齐, 协同过滤, DPO, 语义-协同ID
一句话总结¶
提出统一三层对齐框架 Align³GR,在 token 级(双端 SCID)、行为建模级(多任务 SFT)和偏好级(渐进式 DPO)系统性弥合 LLM 与推荐系统之间的语义-行为鸿沟。
背景与动机¶
LLM 作为生成式推荐器(Generative Recommender)直接端到端输出推荐物品是近期趋势,但核心困难在于 LLM 的语言建模目标与推荐系统的用户隐式偏好建模之间存在本质差距:语言侧关注语义信息与 next-token prediction,推荐侧关注交互行为信息。现有工作通常只在 tokenization、SFT、偏好 RL 三个环节中的某一个做对齐,缺乏系统性的多层级联合优化。此外,已有方法在 tokenization 阶段往往只编码 item 而忽略 user,偏好对齐阶段也多依赖静态离线数据,无法应对真实场景中用户偏好的动态变化。
核心问题¶
- 如何在 token 层面同时建模用户和物品的语义与协同信号,而非孤立编码?
- 如何在 SFT 阶段让 LLM 不仅学会推荐行为模式,还能理解 user token 的语义含义?
- 如何通过渐进式偏好优化(由易到难)持续提升模型,突破静态 DPO 的性能天花板?
方法详解¶
整体框架¶
Align³GR 是一个统一的三层对齐流水线:Token 级对齐 → 行为建模级对齐 → 偏好级对齐。以 Llama2-7B 为骨干,使用 LoRA 做参数高效微调。
关键设计¶
- Token 级对齐:双端 SCID Tokenization
- 对用户和物品分别提取语义特征(冻结的 T5 编码器)和协同特征(冻结的 DIN 编码器),拼接后通过 SC Encoder(MLP)融合为统一的 SC embedding
- 使用 3 层 RQ-VAE(每层 256 个 codebook embedding,维度 32)将 SC embedding 量化为离散的 SCID token
- 训练目标包含两部分:用户-物品行为对齐损失 \(\mathcal{L}_{\text{U2I}}\)(sampled-softmax)和 RQ-VAE 重构/量化损失,通过两阶段切换超参 \(\alpha, \gamma\) 进行训练——先稳定行为对齐(\(\alpha=1, \gamma=0\)),再聚焦量化学习(\(\alpha=0.1, \gamma=1\))
-
推理时用户和物品模块独立部署,各自生成 SCID
-
行为建模级对齐:增强多任务 SFT
- 基于 LC-Rec 的多任务 SFT(序列预测、非对称预测、意图推断、偏好推理),但做了两个关键增强:
- 注入 User SCID:在所有任务 prompt 中加入用户 SCID token,提供更丰富的上下文
-
双向对齐任务(\(B_2\)):text→SCID(从用户画像预测 SCID)和 SCID→text(从 SCID 重构用户画像),显式建立 SCID token 与真实语义的对应关系
-
偏好级对齐:渐进式 DPO
- 基于 Softmax-DPO(每样本 1 正例 + 20 负例),分两阶段渐进学习:
- SP-DPO(Self-Play DPO):模型与自身博弈生成多样化训练数据,利用 SCID 的分层特性按 prefix-ngram 匹配度分三阶段(Easy/Medium/Hard),从完全不同的正负例逐步过渡到 prefix 高度重叠但仍不同的正负例
- RF-DPO(Real-world Feedback DPO):利用真实用户反馈构建偏好数据,反馈分三级(disliked/neutral/liked),同样渐进训练——Easy 阶段用强烈不喜欢作负例,Hard 阶段用中性(曝光未点击)作更难负例
- 每个阶段微调后的模型成为下一阶段的参考模型 \(\pi_\theta^i \to \pi_{\text{ref}}^{i+1}\)
损失函数 / 训练策略¶
- Token 级:\(\mathcal{L} = \alpha \cdot \mathcal{L}_{\text{U2I}} + \gamma \cdot (\mathcal{L}_{\text{User RQ}} + \mathcal{L}_{\text{Item RQ}})\),两阶段训练
- 行为建模级:多任务 SFT loss + 双向对齐辅助 loss
- 偏好级:Softmax-DPO loss,渐进式 SP-DPO → RF-DPO,每阶段模型迭代更新参考策略
- 骨干 Llama2-7B + LoRA,AdamW 优化器,batch size 1024,训练 20,000 步,beam width 20
实验关键数据¶
| 数据集 | 指标 | Align³GR | EAGER-LLM (之前SOTA) | 提升 |
|---|---|---|---|---|
| Instruments | R@5 | 0.1103 | 0.0991 | +11.3% |
| Instruments | R@10 | 0.1442 | 0.1224 | +17.8% |
| Instruments | N@5 | 0.0947 | 0.0851 | +11.3% |
| Instruments | N@10 | 0.1113 | 0.0926 | +20.2% |
| Beauty | R@10 | 0.0994 | 0.0830 | +19.8% |
| Beauty | N@10 | 0.0529 | 0.0459 | +15.3% |
| Yelp | R@10 | 0.0679 | 0.0569 | +19.3% |
| Yelp | N@10 | 0.0403 | 0.0315 | +27.9% |
工业 A/B 测试(约 4000 万用户,多周测试): | 模型 | Recall@100 | Revenue 提升 | |------|------------|-------------| | TIGER | 0.229 | +0.555% | | Align³GR | 0.242 | +1.432% |
消融实验要点¶
- Token 级:单端→双端 tokenization 有显著提升;加入协同特征(CF)进一步提升;U-I 对齐损失与双端+CF 配合效果最佳
- 行为建模级:注入 User SCID 到 prompt 带来一致提升;双向对齐任务 \(B_2\) 贡献最大,说明 LLM 需要显式的语义-结构化映射监督
- 偏好级:Self-Play 将 R@10 从 0.1295 提升到 0.1356;渐进式学习再提升到 0.1396;加入真实反馈 RF-DPO + 渐进策略达到最佳 0.1442
亮点¶
- 系统性对齐设计:三层对齐(token/behavior/preference)形成完整流水线,每层都有明确的对齐目标,且实验证明各层贡献互补
- 双端 SCID:不同于仅编码 item 的已有方法,同时建模用户与物品的语义-协同联合表示,并通过 U2I 行为损失做联合优化
- 渐进式 DPO:从 SP-DPO 到 RF-DPO、从 Easy 到 Hard 的课程学习策略,解决了静态 DPO 在动态推荐场景中的局限
- 工业验证充分:不仅有 3 个公开数据集的离线实验,还有 4000 万用户规模的在线 A/B 测试,Revenue 提升 1.432%
局限性 / 可改进方向¶
- 骨干模型仅使用 Llama2-7B,未探索更大或更新的 LLM(如 Llama3)对效果的影响
- RQ-VAE 的 codebook 大小固定为 256,对于超大规模物品库可能存在 codebook 碰撞问题
- RF-DPO 的反馈分级(disliked/neutral/liked)较粗粒度,更细粒度的反馈信号可能进一步提升效果
- 公开数据集上用 LLM 情感分析代替真实用户反馈做 RF-DPO,可能引入噪声
- 用户历史限制为最近 20 个交互,长序列建模能力未被充分探索
与相关工作的对比¶
- vs LC-Rec:LC-Rec 只做 item tokenization + 多任务 SFT,Align³GR 增加了双端 SCID 和渐进式 DPO,全面超越
- vs EAGER-LLM:EAGER-LLM 在 token 级引入协同信号,但仍是单端(item 侧),且无偏好对齐;Align³GR 的双端 tokenization + 行为建模增强 + 渐进 DPO 实现了全方位提升
- vs LETTER:LETTER 提出可学习 tokenizer 但无用户建模和偏好优化,Align³GR 在所有指标上显著优于 LETTER
- vs 标准 DPO:传统 DPO 依赖静态离线数据,Align³GR 的渐进式 SP-DPO + RF-DPO 实现持续自我改进和真实反馈适应
启发与关联¶
- 三层对齐的设计思路(token/behavior/preference)可以迁移到其他 LLM 适配下游任务的场景(如 LLM+搜索、LLM+广告)
- 渐进式 DPO 的 Easy-to-Hard 课程学习策略在偏好标签噪声大的场景(如推荐、广告)特别有价值
- 双端 tokenization 思路提示我们:在 LLM 做推荐时,user 和 item 应当在同一框架内联合建模,而非独立处理
评分¶
- 新颖性: ⭐⭐⭐⭐ (三层对齐的系统设计有创新,但各模块如 RQ-VAE、DPO 本身并非新技术)
- 实验充分度: ⭐⭐⭐⭐⭐ (3 个公开数据集 + 工业 A/B 测试 + 详细消融)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,但部分公式符号较密集)
- 价值: ⭐⭐⭐⭐ (工业落地价值高,但学术新颖性中等偏上)