Multi-Aspect Cross-modal Quantization for Generative Recommendation¶
会议: AAAI 2026
arXiv: 2511.15122
代码: github.com/zhangfw123/MACRec
领域: 图像生成 / 推荐系统
关键词: 生成式推荐, 跨模态量化, 残差量化, 对比学习, 语义ID
一句话总结¶
提出 MACRec,在生成式推荐的语义 ID 学习和生成模型训练两个阶段引入多方面跨模态交互,通过跨模态量化(对比学习增强残差量化)和多方面对齐(隐式+显式),显著提升推荐性能并降低 ID 冲突率。
研究背景与动机¶
领域现状¶
生成式推荐(Generative Recommendation, GR)是一种新兴推荐范式,将推荐任务重构为下一个 token 预测问题。具体流程:(1) 通过残差量化(RQ-VAE)将物品嵌入离散化为语义标识符(Semantic ID)序列;(2) 将用户历史交互表示为语义 ID 序列;(3) 用序列生成模型(如 T5)预测下一个物品的语义 ID。代表工作有 TIGER、LC-Rec、LETTER 等。
现有痛点¶
单模态信息不足:现有 GR 方法主要使用文本嵌入来构建语义 ID,但单一模态的语义区分度有限。例如,同一品牌不同功能的乐器在文本嵌入空间中距离很近(品牌信息主导),难以区分不同产品。
量化过程中的层级语义损失:RQ-VAE 在更深的量化层级中存在显著的语义损失,导致模型在分配 token 时缺乏清晰的语义引导,ID 分配趋于随机化。
跨模态交互缺失:现有多模态 GR 方法(如 MQL4GRec)对每种模态独立编码获取语义 ID,在量化过程中没有考虑跨模态交互,无法充分利用模态间的互补性。
核心矛盾¶
如何在语义 ID 的学习阶段和使用阶段(生成模型训练)充分利用多模态信息的互补性,构建层级语义清晰、冲突率低、且能有效训练生成模型的高质量语义 ID?
核心 Idea¶
在两个阶段引入跨模态交互:(1) 量化阶段:通过跨模态对比学习增强 RQ-VAE 每一层的残差表示,利用视觉伪标签优化文本残差、文本伪标签优化视觉残差,减少各层的语义损失并降低 ID 冲突率。(2) 生成模型训练阶段:通过隐式对齐(潜在空间对比学习)和显式对齐(跨模态生成任务)让模型学习不同模态语义 ID 之间的共同特征。
方法详解¶
整体框架¶
MACRec 包含两个主要模块: 1. 跨模态物品量化(Cross-modal Item Quantization):生成高质量的多模态语义 ID 2. 多方面对齐的生成推荐(Generative Recommendation with Multi-aspect Alignment):利用对齐策略训练 GR 模型
关键设计¶
1. 双模态伪标签生成(Dual-modality Pseudo-label Generation)¶
功能:为跨模态对比学习构造正样本对。
核心思路:分别对所有物品的文本嵌入 \(\{\mathbf{t}_i\}\) 和视觉嵌入 \(\{\mathbf{v}_i\}\) 进行 K-means 聚类(\(K\)=512),得到文本聚类标签 \(\mathcal{C}_{text}\) 和视觉聚类标签 \(\mathcal{C}_{vision}\)。
设计动机:不同模态的聚类结果反映了不同方面的物品相似性——文本按品牌/描述聚类,视觉按外观/形状聚类。利用一种模态的聚类标签作为另一种模态的正样本引导,实现互补信息注入。
2. 跨模态量化与对比学习(Cross-modal Quantization with Contrastive Learning)¶
功能:在 RQ-VAE 的每一量化层引入跨模态对比学习,增强残差表示的判别性。
核心思路:
对文本和视觉嵌入分别进行 \(L\) 层残差量化: $\(c_l^t = \arg\min_k \|\mathbf{r}_l^t - \mathbf{e}_{l,k}^t\|_2, \quad \mathbf{r}_{l+1}^t = \mathbf{r}_l^t - \mathbf{e}_{l,c_k^t}^t\)$
在每层的残差表示上施加跨模态对比损失——用视觉伪标签构造文本残差的正样本,用文本伪标签构造视觉残差的正样本:
层级起始策略:对比损失从第 3 层开始施加(\(\lambda_{con}^{0,1}=0\), \(\lambda_{con}^{2,3}=0.1\)),前两层保留模态特有信息。
设计动机:(1) 独立量化文本和视觉会导致码本坍缩(相似嵌入映射到同一码字)和利用率低下;(2) 跨模态对比学习让每层残差能捕捉不同模态的互补特征,减少层级语义损失。
3. 跨模态重建对齐(Cross-modal Reconstruction Alignment)¶
功能:在量化后的表示上施加跨模态对齐约束,进一步优化码本。
核心思路:将各层码字求和得到量化表示 \(\hat{\mathbf{z}}^t = \sum_{l=0}^{L-1}\mathbf{e}_{l,c_k^t}^t\),对同一物品的文本和视觉量化表示进行双向对比对齐:
设计动机:确保同一物品在不同模态的量化表示在潜在空间中保持一致,平衡码本利用率。
4. 隐式对齐(Implicit Alignment)¶
功能:在 GR 模型的潜在空间中对齐同一物品的文本和视觉语义 ID 表示。
核心思路:将文本和视觉语义 ID 分别通过 T5 Encoder 编码并进行 Mean Pooling,然后通过双向 InfoNCE 损失对齐:
设计动机:让 GR 模型能识别不同模态语义 ID 之间的共性,为后续预测提供更好的特征基础。
5. 显式对齐(Explicit Alignment)¶
功能:通过跨模态生成任务在输出空间进行对齐。
核心思路:设计两类跨模态生成任务: - 物品级对齐:文本 ID → 视觉 ID,视觉 ID → 文本 ID - 序列级对齐:文本 ID 序列 → 下一物品视觉 ID,视觉 ID 序列 → 下一物品文本 ID
这些辅助任务与标准序列推荐任务联合训练。
设计动机:隐式对齐仅在编码端,显式对齐则在解码端进一步加强跨模态关联,让模型从不同角度学习模态间的共同特征。
损失函数 / 训练策略¶
语义 ID 学习阶段: $\(\mathcal{L}_{ID} = \mathcal{L}_{RQ-VAE} + \lambda_{con}^l \sum_{l=0}^{L-1}\mathcal{L}_{con}^l + \lambda_{align}\mathcal{L}_{align}\)$
其中 \(\mathcal{L}_{RQ-VAE}\) 包含重建损失和量化损失。
GR 模型训练阶段: $\(\mathcal{L}_{rec} = -\sum_{t=1}^{|y|}\log P_\theta(y_t | y_{<t}, x) + \lambda_{implicit}\mathcal{L}_{implicit}\)$
推理时使用受限束搜索生成候选语义 ID,取两种模态得分平均作为最终结果。
超参设置:码本大小 \(M\)=256,4 层量化,AdamW 优化器,batch size 1024,学习率 0.001,\(\lambda_{align}=0.001\),\(\lambda_{implicit}=0.01\),\(\tau=0.1\)。
实验关键数据¶
主实验¶
三个 Amazon 数据集上的推荐性能对比:
| 数据集 | 指标 | TIGER | MQL4GRec | MACRec | 提升 |
|---|---|---|---|---|---|
| Instruments | HR@1 | 0.0754 | 0.0763 | 0.0819 | +7.3% |
| Instruments | NDCG@10 | 0.0950 | 0.0997 | 0.1046 | +4.9% |
| Arts | HR@1 | 0.0532 | 0.0626 | 0.0685 | +9.4% |
| Arts | NDCG@10 | 0.0806 | 0.0898 | 0.0953 | +6.1% |
| Games | HR@10 | 0.0857 | 0.1007 | 0.1078 | +7.1% |
| Games | NDCG@10 | 0.0453 | 0.0538 | 0.0565 | +5.0% |
MACRec 在三个数据集的所有指标上均取得最佳结果(p < 0.05),统计显著优于最强基线 MQL4GRec。
消融实验¶
各模块消融(HR@10):
| 配置 | Instruments | Arts | Games | 说明 |
|---|---|---|---|---|
| MACRec (完整) | 0.1363 | 0.1329 | 0.1078 | 全部组件 |
| w/o \(\mathcal{L}_{con}^l\) | 0.1289 | 0.1283 | 0.1018 | 移除跨模态量化对比 |
| w/o \(\mathcal{L}_{align}\) | 0.1310 | 0.1301 | 0.1026 | 移除重建对齐 |
| w/o \(\mathcal{L}_{implicit}\) | 0.1312 | 0.1296 | 0.1042 | 移除隐式对齐 |
| w/o Explicit Alignment | 0.1296 | 0.1299 | 0.1037 | 移除显式对齐 |
关键观察:\(\mathcal{L}_{con}\) 的移除导致最大性能下降,说明量化阶段的跨模态对比学习是最关键的组件。
ID 冲突率对比(%):
| 数据集 | 模态 | MQL4GRec | MACRec | 降幅 |
|---|---|---|---|---|
| Instruments | Text | 2.76 | 2.38 | -14% |
| Instruments | Image | 3.71 | 3.23 | -13% |
| Arts | Text | 5.15 | 4.24 | -18% |
| Games | Image | 26.10 | 25.24 | -3.3% |
MACRec 有效降低了两种模态的 ID 冲突率。
关键发现¶
- 跨模态量化最重要:\(\mathcal{L}_{con}\) 是影响最大的组件,说明在量化阶段引入跨模态交互对语义 ID 质量至关重要。
- 模态互补性可视化验证:文本嵌入擅长按品牌聚类,视觉嵌入擅长区分产品类别(如不同乐器形态),两者互补。
- 码本利用率改善:MACRec 的码字分配更均匀,避免了码本坍缩问题。
- 对比损失起始层选择:从第 3 层开始施加对比损失效果最佳,前两层保留模态特有信息、后两层利用跨模态信号补偿语义损失。
亮点与洞察¶
- 量化阶段的跨模态交互是首创:以往多模态 GR 在量化时独立处理各模态,MACRec 首次在 RQ-VAE 的每一层引入跨模态交互。
- 多方面对齐策略全面:涵盖量化层对比、重建对齐、编码端隐式对齐、解码端显式对齐四个层面。
- 伪标签机制巧妙:利用一种模态的聚类结果为另一种模态提供正样本,避免了跨模态标注成本。
- ID 冲突率分析深入:不仅看推荐性能,还分析了量化质量(冲突率、码字分布),为理解方法有效性提供了多角度证据。
局限与展望¶
- 仅使用文本+图像两种模态:未考虑其他可能有用的模态(如价格、类别标签、用户评论)。
- 聚类数 K=512 固定:对不同数据集可能需要不同的聚类粒度设定。
- GR 模型骨干受限:使用 T5-small(4层 encoder+decoder),在更大模型上的效果需要验证。
- MQL4GRec 公平性:文中提到未使用 MQL4GRec 的百万级预训练数据以确保公平比较,但这也意味着 MQL4GRec 可能有更大潜力未被展示。
- 推理效率:双模态推理需要两条生成路径 + 分数融合,推理开销高于单模态 GR。
相关工作与启发¶
- TIGER:开创了 RQ-VAE 生成语义 ID 的范式,MACRec 在其基础上引入多模态。
- MQL4GRec:最直接的前序工作,使用多模态量化语言但缺乏量化阶段的跨模态交互。
- CLIP/对比学习:InfoNCE 损失在多个位置被使用,展示了对比学习在多模态推荐中的强大适用性。
- 对推荐系统的启发:RQ-VAE 量化质量是 GR 性能的关键瓶颈,从量化阶段入手优化可能是更有效的提升路径。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 量化阶段跨模态交互是核心创新,多方面对齐策略全面
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种消融、冲突率分析、码字分布可视化
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,方法描述详细
- 价值: ⭐⭐⭐⭐ — 对 GR 领域贡献显著,跨模态量化思路可推广
相关论文¶
- [ACL 2026] From Past To Path: Masked History Learning for Next-Item Prediction in Generative Recommendation
- [ICCV 2025] StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion
- [AAAI 2026] Multi-Metric Preference Alignment for Generative Speech Restoration
- [CVPR 2026] Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video
- [CVPR 2026] Quantization with Unified Adaptive Distillation to enable multi-LoRA based one-for-all Generative Vision Models on edge