跳转至

SSUF: A Semi-supervised Scalable Unified Framework for E-commerce Query Classification

会议: ACL 2025
arXiv: 2506.21049
代码: 待确认
领域: 电商NLP / 多标签分类
关键词: 查询分类, 电商搜索, 半监督, 知识增强, 标签语义, 图学习, 马太效应

一句话总结

提出电商查询分类的半监督可扩展统一框架 SSUF——三个可插拔模块:知识增强(LLM 世界知识+后验点击)解决短查询信息不足、标签增强(语义编码+半监督信号)打破对后验标签的依赖、结构增强(共现+语义+层级图 GCN)传播长尾标签梯度。已在 JD.COM 部署,离线和在线 A/B 实验均显著超越 SOTA。

背景与动机

电商查询分类(意图/品类/品牌预测)是搜索系统的核心。面临三大挑战:

  1. 查询短且歧义:如"Black 16pro"语义不充分,直接编码无法匹配"手机"类目
  2. 马太效应恶性循环:依赖用户点击行为构造训练样本 → 热门查询过度关注 → 长尾查询泛化差
  3. 子任务孤立:意图/品类/品牌预测各自独立建模,无统一框架,优化效率低

核心问题

如何构建统一框架解决电商查询分类中的信息不足、后验依赖和长尾标签问题?

方法详解

整体框架

SSUF 包含三个高度可插拔的增强模块,叠加在共享文本编码器(BERT)之上。

关键设计

  1. 标签增强模块(Label-Enhanced)
  2. 用 BERT 编码标签名+附加信息(产品词、高频搜索词、LLM 知识)得到语义标签表示
  3. 替代传统的标签 index 嵌入,使标签间可做语义比较

  4. 知识增强模块(Knowledge-Enhanced)

  5. 后验知识:用户高频点击/购买产品标签
  6. 世界知识:将查询和相关产品送入开源 LLM 生成简短描述(含相关查询/品类/产品)
  7. 注意力融合:查询表示 + 知识嵌入 → 注意力加权融合
  8. 融合后计算查询-标签相似度作为半监督标签 \(y^{semi}\)(stop_gradient 防止循环依赖)

  9. 结构增强模块(Structure-Enhanced)

  10. 三种标签关系图:共现图(条件概率)+ 语义相似图(余弦相似度)+ 层级结构图(父子关系+频率加权)
  11. 融合后用 GCN 学习标签表示 → 长尾标签通过与热门标签的图连接获得梯度传播

训练策略

总损失 = 后验标签 BCE 损失 + 半监督标签 BCE 损失(知识增强分支梯度截断)。推理时只需查询文本+GCN标签嵌入,知识增强分支离线。

实验关键数据

  • 离线实验:在 JD.COM 数据集上所有指标显著超越 HCL4QC、SMGCN、HQC 等 SOTA
  • 在线 A/B 实验:已部署上线,带来显著商业价值
  • 消融实验:三个模块各有独立贡献,知识增强模块贡献最大(解决短查询信息不足)

亮点

  • 统一框架:三个可插拔模块适配不同子任务(意图/品类/品牌),提升迭代效率
  • 打破马太效应:半监督信号+结构传播使长尾标签不再依赖后验点击
  • LLM 生成世界知识是亮点:用 LLM 补充短查询上下文,成本可控(离线预计算)
  • 已上线部署:非纯学术工作,有实际商业验证

局限性 / 可改进方向

  • LLM 知识质量不可控:LLM 可能生成错误信息反向污染
  • 半监督阈值 τ 敏感:不同子任务可能需要不同阈值
  • 仅在 JD.COM 验证:其他电商平台泛化性未知
  • 中文特定:查询和标签均为中文,多语言未验证

与相关工作的对比

  • vs HCL4QC/SMGCN:利用层级结构但缺乏知识增强和半监督;SSUF 三合一
  • vs 纯 LLM 方案:LLM 直接做分类成本高且不可控;SSUF 将 LLM 知识蒸馏为离线特征
  • vs 标准多标签分类:忽略标签间关系和查询信息不足;SSUF 三个模块各解决一个问题

启发与关联

  • "用 LLM 离线生成知识 → 注入到小模型训练"是实用的知识蒸馏范式
  • 半监督标签的 stop_gradient 设计巧妙地避免了循环依赖——值得借鉴
  • 三种标签关系图的融合思路可推广到任何有层级/共现结构的分类任务

评分

  • 新颖性: ⭐⭐⭐⭐ 三模块统一框架和半监督打破马太效应有创新
  • 实验充分度: ⭐⭐⭐⭐ 离线+在线A/B+消融,工业级验证
  • 写作质量: ⭐⭐⭐⭐ 模块化描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 已上线部署,对电商搜索有直接商业价值