SSUF: A Semi-supervised Scalable Unified Framework for E-commerce Query Classification¶
会议: ACL 2025
arXiv: 2506.21049
代码: 待确认
领域: 电商NLP / 多标签分类
关键词: 查询分类, 电商搜索, 半监督, 知识增强, 标签语义, 图学习, 马太效应
一句话总结¶
提出电商查询分类的半监督可扩展统一框架 SSUF——三个可插拔模块:知识增强(LLM 世界知识+后验点击)解决短查询信息不足、标签增强(语义编码+半监督信号)打破对后验标签的依赖、结构增强(共现+语义+层级图 GCN)传播长尾标签梯度。已在 JD.COM 部署,离线和在线 A/B 实验均显著超越 SOTA。
背景与动机¶
电商查询分类(意图/品类/品牌预测)是搜索系统的核心。面临三大挑战:
- 查询短且歧义:如"Black 16pro"语义不充分,直接编码无法匹配"手机"类目
- 马太效应恶性循环:依赖用户点击行为构造训练样本 → 热门查询过度关注 → 长尾查询泛化差
- 子任务孤立:意图/品类/品牌预测各自独立建模,无统一框架,优化效率低
核心问题¶
如何构建统一框架解决电商查询分类中的信息不足、后验依赖和长尾标签问题?
方法详解¶
整体框架¶
SSUF 包含三个高度可插拔的增强模块,叠加在共享文本编码器(BERT)之上。
关键设计¶
- 标签增强模块(Label-Enhanced):
- 用 BERT 编码标签名+附加信息(产品词、高频搜索词、LLM 知识)得到语义标签表示
-
替代传统的标签 index 嵌入,使标签间可做语义比较
-
知识增强模块(Knowledge-Enhanced):
- 后验知识:用户高频点击/购买产品标签
- 世界知识:将查询和相关产品送入开源 LLM 生成简短描述(含相关查询/品类/产品)
- 注意力融合:查询表示 + 知识嵌入 → 注意力加权融合
-
融合后计算查询-标签相似度作为半监督标签 \(y^{semi}\)(stop_gradient 防止循环依赖)
-
结构增强模块(Structure-Enhanced):
- 三种标签关系图:共现图(条件概率)+ 语义相似图(余弦相似度)+ 层级结构图(父子关系+频率加权)
- 融合后用 GCN 学习标签表示 → 长尾标签通过与热门标签的图连接获得梯度传播
训练策略¶
总损失 = 后验标签 BCE 损失 + 半监督标签 BCE 损失(知识增强分支梯度截断)。推理时只需查询文本+GCN标签嵌入,知识增强分支离线。
实验关键数据¶
- 离线实验:在 JD.COM 数据集上所有指标显著超越 HCL4QC、SMGCN、HQC 等 SOTA
- 在线 A/B 实验:已部署上线,带来显著商业价值
- 消融实验:三个模块各有独立贡献,知识增强模块贡献最大(解决短查询信息不足)
亮点¶
- 统一框架:三个可插拔模块适配不同子任务(意图/品类/品牌),提升迭代效率
- 打破马太效应:半监督信号+结构传播使长尾标签不再依赖后验点击
- LLM 生成世界知识是亮点:用 LLM 补充短查询上下文,成本可控(离线预计算)
- 已上线部署:非纯学术工作,有实际商业验证
局限性 / 可改进方向¶
- LLM 知识质量不可控:LLM 可能生成错误信息反向污染
- 半监督阈值 τ 敏感:不同子任务可能需要不同阈值
- 仅在 JD.COM 验证:其他电商平台泛化性未知
- 中文特定:查询和标签均为中文,多语言未验证
与相关工作的对比¶
- vs HCL4QC/SMGCN:利用层级结构但缺乏知识增强和半监督;SSUF 三合一
- vs 纯 LLM 方案:LLM 直接做分类成本高且不可控;SSUF 将 LLM 知识蒸馏为离线特征
- vs 标准多标签分类:忽略标签间关系和查询信息不足;SSUF 三个模块各解决一个问题
启发与关联¶
- "用 LLM 离线生成知识 → 注入到小模型训练"是实用的知识蒸馏范式
- 半监督标签的 stop_gradient 设计巧妙地避免了循环依赖——值得借鉴
- 三种标签关系图的融合思路可推广到任何有层级/共现结构的分类任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 三模块统一框架和半监督打破马太效应有创新
- 实验充分度: ⭐⭐⭐⭐ 离线+在线A/B+消融,工业级验证
- 写作质量: ⭐⭐⭐⭐ 模块化描述清晰
- 价值: ⭐⭐⭐⭐⭐ 已上线部署,对电商搜索有直接商业价值