Behavior Tokens Speak Louder: Disentangled Explainable Recommendation with Behavior Vocabulary¶
会议: AAAI2026
arXiv: 2512.15614
代码: fxsxjtu/BEAT
领域: human_understanding
关键词: Explainable Recommendation, Behavior Tokenization, VQ-VAE, LLM, Disentangled Representation
一句话总结¶
提出 BEAT 框架,通过向量量化自编码将用户/物品的行为表征离散化为可解释的 behavior tokens,结合多层级语义监督将协同过滤信号对齐到冻结 LLM 的语义空间,实现零样本可解释推荐。
背景与动机¶
现有可解释推荐方法面临三个核心瓶颈:
- ID 表征泛化差:传统方法为每个用户/物品分配唯一 ID embedding,面对冷启动用户和新物品时完全失效;即使图方法(如 XRec)引入协同信号,也存在过平滑问题,削弱个性化
- 计算开销大:基于 LLM 的方法要么将大量用户画像文本塞入 prompt,要么需要微调 LLM,代价高昂
- 模态割裂:多数方法将交互历史和评论语义孤立处理,未能统一两者的互补信息
作者观察到:虽然用户偏好各异,但用户之间存在共享的集体行为模式(如追求高性价比的趋势)。因此用一组离散的 behavior tokens 来表达用户/物品,其中相似的实体共享部分 token,独特的组合则对应特定的偏好模式。
核心问题¶
如何将用户和物品的交互行为高效编码为 LLM 可理解的离散 token 序列,使冻结的 LLM 无需微调即可生成连贯的推荐解释?
方法详解¶
BEAT 分为两个阶段:行为词汇构建 + LLM 语义对齐。
阶段一:解耦行为建模与行为词汇构建¶
解耦表征:将每个用户表示分解为 1 个 macro interest 向量(宏观兴趣,用户独有的整体偏好)和 N 个 micro intention 向量(微观意图,跨用户共享的细粒度属性偏好,如"耐用性""易用性")。拼接后经 LightGCN 图传播融入协同信号,再做多层平均保留多阶信息。
VQ-VAE 离散化:构建 macro 和 micro 两个 codebook(大小 512),将连续表征量化到最近的 codeword。重建目标为预测用户-物品交互矩阵。损失函数包括重建损失 \(\mathcal{L}_{\text{RECON}}\) 和 VQ 量化损失 \(\mathcal{L}_{\text{VQ-VAE}}\)。
多层级语义监督:
- Macro 语义监督:用冻结的预训练文本编码器提取评论 [CLS] 特征作为监督信号,将用户和物品的 macro behavior token 融合后,通过 InfoNCE 对比损失与评论语义对齐
- Micro 语义监督:用 LLM 从用户历史评论中提取可解释的微观意图短语(如"喜欢历史题材"),编码后不做一对一配对(因 micro token 无序),而是采用掩码重建策略——随机遮蔽部分微观意图嵌入,用 cross-attention 模块结合 behavior tokens 和未遮蔽意图来重建被遮蔽的意图
整体损失:\(\mathcal{L}_{\text{tokenizer}} = \alpha \cdot \mathcal{L}_{\text{macro}} + \beta \cdot \mathcal{L}_{\text{micro}} + \mathcal{L}_{\text{behave}}\),其中 \(\alpha=0.2, \beta=1\)。
阶段二:LLM 行为 Token 理解¶
投影对齐:用两层 MLP 将 behavior tokens 映射到冻结 LLM 的输入空间,替换 prompt 中的占位符 <Tokens>。
语义对齐正则(SAR):LLM 原生词表中已有丰富的语义关联(如"爱"与"历史书籍"的关系)。SAR 将解释文本中每个词映射到最近的 behavior token,然后要求 behavior token 对之间的余弦相似度与对应文本词对之间的相似度一致,从而把 LLM 原生的语义关系迁移到 behavior token 空间。
联合训练:NLL 生成损失 + SAR 对齐损失,仅训练投影层,LLM 权重冻结。
实验关键数据¶
数据集:Amazon(图书评论)、Yelp(多品类商户)、Google(商户评论),评估指标 BLEU-1、BARTScore、BERTScore。
零样本主结果(用户/物品有交互但无评论文本):
| 方法 | Amazon BLEU | Amazon BART | Amazon BERT |
|---|---|---|---|
| PETER (ID-based) | 0.3682 | -4.2300 | 0.1488 |
| XRec (LLM-based) | 0.2999 | -4.3210 | 0.3598 |
| TEA-GLM | 0.3971 | -4.1348 | 0.3406 |
| BEAT | 0.4195 | -3.9929 | 0.3821 |
BEAT 在 Amazon 的三项指标上全面最优,在 Google 和 Yelp 上也达到 SOTA 或极具竞争力的水平。
消融实验: - 去掉 micro tokens:性能明显下降,证实细粒度表征为关键 - 去掉 macro tokens:效果因数据集而异(Google 下降,Amazon/Yelp 微升),高层概括 token 有时可能干扰 LLM 对细节的关注 - 去掉 SAR 对齐:在复杂场景(Yelp)上下降显著,语义对齐对复杂领域至关重要
跨 LLM 鲁棒性:在 DeepSeek-8B、LLaMA3.1-8B、LLaMA3.2-3B、Skywork-8B 上均可工作;3B 模型也能达到接近 8B 的性能,说明方法可扩展到资源受限场景。
亮点¶
- Behavior Vocabulary 的设计理念:用离散 token 序列表示用户/物品——相似实体共享部分 token,独特组合对应特定偏好;兼顾集体性与个性化,且天然支持冷启动(可从邻居借用 token)
- 多层级语义监督:macro 用对比学习对齐评论全局语义,micro 用掩码重建对齐细粒度意图,巧妙解决了 micro token 无序不可配对的问题
- 轻量级 + 冻结 LLM:仅训练 tokenizer 和投影层,LLM 全程冻结,在 RTX 3090 上即可运行;behavior tokens 可即插即用到不同 LLM
- 可解释性分析:注意力热力图揭示了 LLM 在不同数据集上动态调整关注焦点(Amazon 关注用户、Yelp 关注物品),证明模型确实在理解 token 语义而非记忆
局限性 / 可改进方向¶
- Macro token 效果不稳定:消融实验显示在 Amazon/Yelp 上去掉 macro 反而微升,说明宏观概括在某些场景下可能引入噪声,需要自适应门控机制
- LLM 幻觉问题:生成的用户画像虽大致匹配但存在部分幻觉,作者仅提到"可通过微调缓解"但未实际解决
- 评估局限:仅用自动指标(BLEU/BART/BERTScore)衡量解释质量,缺少人类评估考察解释的实用性和可信度
- 微观意图依赖 LLM 提取:micro intention 的语义标签需要 LLM 从评论中提取,对评论稀缺的场景可能效果有限
- 跨域迁移未验证:虽然提到未来方向,但当前实验未涉及跨领域零样本场景
与相关工作的对比¶
- vs PETER/NRT(ID-based):BEAT 用共享行为词汇替代唯一 ID,天然支持冷启动和泛化
- vs XRec(图+LLM):XRec 将图 embedding 注入 LLM 但仍修改 LLM 结构;BEAT 投影到输入空间保持 LLM 冻结,更轻量且可迁移
- vs Review-LLM/EXP3RT(Profile-based):这些方法依赖完整用户画像文本送入 prompt,计算开销大且受限于评论可用性;BEAT 将行为压缩为 6 个 token(1 macro + 5 micro),极大降低 prompt 长度
- vs DGCF/DisenHAN(解耦推荐):这些方法做粗粒度偏好建模,缺乏可解释性和语义对齐;BEAT 在解耦的基础上增加多层级语义监督,桥接协同信号和自然语言
启发与关联¶
- 行为 token 化的思路可推广到其他领域:将复杂的非文本信号(时序、轨迹、生理信号)压缩为 LLM 可理解的离散 token,实现通用的"信号→语言"桥接
- SAR 正则可以看作一种知识蒸馏:将 LLM 词表的语义关系结构迁移给新 token,这种做法可应用于任何需要将外部 token 嵌入 LLM 的场景
- 掩码重建解决无序集合对齐的思路值得借鉴:当两组表征无法建立一对一对应时,用上下文重建来隐式对齐
- 冷启动用户的 token 组装策略(从语义邻居借用 + 协同信号修正)为零样本推荐场景提供了可落地方案
- 论文的两阶段训练范式(先训 tokenizer 再训投影层)可作为将外部结构化知识注入 LLM 的通用模板
评分¶
- 新颖性: ⭐⭐⭐⭐ (行为词汇 + 多层级语义监督 + SAR 对齐的组合较新颖)
- 实验充分度: ⭐⭐⭐⭐ (三数据集 + 多 LLM backbone + 消融 + 可解释性分析,但缺人类评估)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,动机阐述到位,图示直观)
- 价值: ⭐⭐⭐⭐ (轻量即插即用的行为 tokenizer 思路有实用前景)