Behavior Tokens Speak Louder: Disentangled Explainable Recommendation with Behavior Vocabulary¶

会议: AAAI2026
arXiv: 2512.15614
代码: fxsxjtu/BEAT
领域: human_understanding
关键词: Explainable Recommendation, Behavior Tokenization, VQ-VAE, LLM, Disentangled Representation

一句话总结¶

提出 BEAT 框架，通过向量量化自编码将用户/物品的行为表征离散化为可解释的 behavior tokens，结合多层级语义监督将协同过滤信号对齐到冻结 LLM 的语义空间，实现零样本可解释推荐。

背景与动机¶

现有可解释推荐方法面临三个核心瓶颈：

ID 表征泛化差：传统方法为每个用户/物品分配唯一 ID embedding，面对冷启动用户和新物品时完全失效；即使图方法（如 XRec）引入协同信号，也存在过平滑问题，削弱个性化
计算开销大：基于 LLM 的方法要么将大量用户画像文本塞入 prompt，要么需要微调 LLM，代价高昂
模态割裂：多数方法将交互历史和评论语义孤立处理，未能统一两者的互补信息

作者观察到：虽然用户偏好各异，但用户之间存在共享的集体行为模式（如追求高性价比的趋势）。因此用一组离散的 behavior tokens 来表达用户/物品，其中相似的实体共享部分 token，独特的组合则对应特定的偏好模式。

核心问题¶

如何将用户和物品的交互行为高效编码为 LLM 可理解的离散 token 序列，使冻结的 LLM 无需微调即可生成连贯的推荐解释？

方法详解¶

BEAT 分为两个阶段：行为词汇构建 + LLM 语义对齐。

阶段一：解耦行为建模与行为词汇构建¶

解耦表征：将每个用户表示分解为 1 个 macro interest 向量（宏观兴趣，用户独有的整体偏好）和 N 个 micro intention 向量（微观意图，跨用户共享的细粒度属性偏好，如"耐用性""易用性"）。拼接后经 LightGCN 图传播融入协同信号，再做多层平均保留多阶信息。

VQ-VAE 离散化：构建 macro 和 micro 两个 codebook（大小 512），将连续表征量化到最近的 codeword。重建目标为预测用户-物品交互矩阵。损失函数包括重建损失 \(\mathcal{L}_{\text{RECON}}\) 和 VQ 量化损失 \(\mathcal{L}_{\text{VQ-VAE}}\)。

多层级语义监督：

Macro 语义监督：用冻结的预训练文本编码器提取评论 [CLS] 特征作为监督信号，将用户和物品的 macro behavior token 融合后，通过 InfoNCE 对比损失与评论语义对齐
Micro 语义监督：用 LLM 从用户历史评论中提取可解释的微观意图短语（如"喜欢历史题材"），编码后不做一对一配对（因 micro token 无序），而是采用掩码重建策略——随机遮蔽部分微观意图嵌入，用 cross-attention 模块结合 behavior tokens 和未遮蔽意图来重建被遮蔽的意图

整体损失：\(\mathcal{L}_{\text{tokenizer}} = \alpha \cdot \mathcal{L}_{\text{macro}} + \beta \cdot \mathcal{L}_{\text{micro}} + \mathcal{L}_{\text{behave}}\)，其中 \(\alpha=0.2, \beta=1\)。

阶段二：LLM 行为 Token 理解¶

投影对齐：用两层 MLP 将 behavior tokens 映射到冻结 LLM 的输入空间，替换 prompt 中的占位符 <Tokens>。

语义对齐正则（SAR）：LLM 原生词表中已有丰富的语义关联（如"爱"与"历史书籍"的关系）。SAR 将解释文本中每个词映射到最近的 behavior token，然后要求 behavior token 对之间的余弦相似度与对应文本词对之间的相似度一致，从而把 LLM 原生的语义关系迁移到 behavior token 空间。

联合训练：NLL 生成损失 + SAR 对齐损失，仅训练投影层，LLM 权重冻结。

实验关键数据¶

数据集：Amazon（图书评论）、Yelp（多品类商户）、Google（商户评论），评估指标 BLEU-1、BARTScore、BERTScore。

零样本主结果（用户/物品有交互但无评论文本）：

方法	Amazon BLEU	Amazon BART	Amazon BERT
PETER (ID-based)	0.3682	-4.2300	0.1488
XRec (LLM-based)	0.2999	-4.3210	0.3598
TEA-GLM	0.3971	-4.1348	0.3406
BEAT	0.4195	-3.9929	0.3821

BEAT 在 Amazon 的三项指标上全面最优，在 Google 和 Yelp 上也达到 SOTA 或极具竞争力的水平。

消融实验： - 去掉 micro tokens：性能明显下降，证实细粒度表征为关键 - 去掉 macro tokens：效果因数据集而异（Google 下降，Amazon/Yelp 微升），高层概括 token 有时可能干扰 LLM 对细节的关注 - 去掉 SAR 对齐：在复杂场景（Yelp）上下降显著，语义对齐对复杂领域至关重要

跨 LLM 鲁棒性：在 DeepSeek-8B、LLaMA3.1-8B、LLaMA3.2-3B、Skywork-8B 上均可工作；3B 模型也能达到接近 8B 的性能，说明方法可扩展到资源受限场景。

亮点¶

Behavior Vocabulary 的设计理念：用离散 token 序列表示用户/物品——相似实体共享部分 token，独特组合对应特定偏好；兼顾集体性与个性化，且天然支持冷启动（可从邻居借用 token）
多层级语义监督：macro 用对比学习对齐评论全局语义，micro 用掩码重建对齐细粒度意图，巧妙解决了 micro token 无序不可配对的问题
轻量级 + 冻结 LLM：仅训练 tokenizer 和投影层，LLM 全程冻结，在 RTX 3090 上即可运行；behavior tokens 可即插即用到不同 LLM
可解释性分析：注意力热力图揭示了 LLM 在不同数据集上动态调整关注焦点（Amazon 关注用户、Yelp 关注物品），证明模型确实在理解 token 语义而非记忆

局限性 / 可改进方向¶

Macro token 效果不稳定：消融实验显示在 Amazon/Yelp 上去掉 macro 反而微升，说明宏观概括在某些场景下可能引入噪声，需要自适应门控机制
LLM 幻觉问题：生成的用户画像虽大致匹配但存在部分幻觉，作者仅提到"可通过微调缓解"但未实际解决
评估局限：仅用自动指标（BLEU/BART/BERTScore）衡量解释质量，缺少人类评估考察解释的实用性和可信度
微观意图依赖 LLM 提取：micro intention 的语义标签需要 LLM 从评论中提取，对评论稀缺的场景可能效果有限
跨域迁移未验证：虽然提到未来方向，但当前实验未涉及跨领域零样本场景

与相关工作的对比¶

vs PETER/NRT（ID-based）：BEAT 用共享行为词汇替代唯一 ID，天然支持冷启动和泛化
vs XRec（图+LLM）：XRec 将图 embedding 注入 LLM 但仍修改 LLM 结构；BEAT 投影到输入空间保持 LLM 冻结，更轻量且可迁移
vs Review-LLM/EXP3RT（Profile-based）：这些方法依赖完整用户画像文本送入 prompt，计算开销大且受限于评论可用性；BEAT 将行为压缩为 6 个 token（1 macro + 5 micro），极大降低 prompt 长度
vs DGCF/DisenHAN（解耦推荐）：这些方法做粗粒度偏好建模，缺乏可解释性和语义对齐；BEAT 在解耦的基础上增加多层级语义监督，桥接协同信号和自然语言

启发与关联¶

行为 token 化的思路可推广到其他领域：将复杂的非文本信号（时序、轨迹、生理信号）压缩为 LLM 可理解的离散 token，实现通用的"信号→语言"桥接
SAR 正则可以看作一种知识蒸馏：将 LLM 词表的语义关系结构迁移给新 token，这种做法可应用于任何需要将外部 token 嵌入 LLM 的场景
掩码重建解决无序集合对齐的思路值得借鉴：当两组表征无法建立一对一对应时，用上下文重建来隐式对齐
冷启动用户的 token 组装策略（从语义邻居借用 + 协同信号修正）为零样本推荐场景提供了可落地方案
论文的两阶段训练范式（先训 tokenizer 再训投影层）可作为将外部结构化知识注入 LLM 的通用模板

评分¶

新颖性: ⭐⭐⭐⭐ (行为词汇 + 多层级语义监督 + SAR 对齐的组合较新颖)
实验充分度: ⭐⭐⭐⭐ (三数据集 + 多 LLM backbone + 消融 + 可解释性分析，但缺人类评估)
写作质量: ⭐⭐⭐⭐ (结构清晰，动机阐述到位，图示直观)
价值: ⭐⭐⭐⭐ (轻量即插即用的行为 tokenizer 思路有实用前景)