ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation¶

会议: ICML 2025
arXiv: 2502.13581
代码: https://github.com/google-deepmind/action_piece
领域: 其他（推荐系统）
关键词: 生成式推荐, 动作分词, 上下文感知, BPE, 集合排列正则化

一句话总结¶

提出 ActionPiece，首个上下文感知的动作序列分词方法，将每个动作表示为无序特征集合，通过加权共现统计在集合内和相邻集合间学习合并规则构建词表，使同一动作在不同上下文中被分词为不同token，在推荐任务中显著提升生成式推荐的准确性。

领域现状：生成式推荐（GR）将用户动作序列分词为离散token并自回归生成，但现有方法独立分词每个动作，同一动作在所有序列中使用相同token。

现有痛点：上下文无关的分词方式忽略了"同一购买行为在不同序列中可能有不同含义"（如购买红色裙子：在搭配购买中关注颜色，在品牌忠诚中关注品牌）。

核心 idea：类比NLP中BPE从字符级到子词级的演进，将推荐领域的动作分词从"词级"推向上下文感知的"子动作级"，允许同一动作根据上下文被分词为不同token。

加权共现统计: 考虑集合内和集合间的token对，根据集合大小计算概率权重——集合内对权重 \(2/|A_i|\)，集合间对权重 \(1/(|A_i| \times |A_{i+1}|)\)
中间节点: 当合并跨集合的token时，引入中间节点存储跨动作token，确保每两个动作节点之间最多一个中间节点
集合排列正则化(SPR): 随机排列每个集合内特征顺序后展平为一维序列，使用标准BPE分割。不同排列产生不同但语义等价的分词结果，作为训练数据增强和推理集成

使用 T5 编码器-解码器进行下一token预测。训练时每轮重新排列产生增强序列，推理时生成 \(q\) 次排列进行数据级集成。

方法	Recall@10	NDCG@10	说明
TIGER (RQ-VAE)	基线	基线	上下文无关
ActionPiece	+显著提升	+显著提升	上下文感知
ActionPiece+SPR	最优	最优	+集成增强

数据集	TIGER R@10	ActionPiece R@10	提升
Beauty	0.082	0.098	+19.5%
Sports	0.056	0.069	+23.2%
Toys	0.071	0.085	+19.7%

将NLP分词技术的演进思路迁移到推荐系统，类比极为恰当：word-level→subword-level ≈ item-level→subaction-level
集合排列正则化巧妙利用了特征集合的无序性，将其从"建模困难"转化为"天然增强"