SSUF: A Semi-supervised Scalable Unified Framework for E-commerce Query Classification¶

会议: ACL 2025
arXiv: 2506.21049
代码: 待确认
领域: 电商NLP / 多标签分类
关键词: 查询分类, 电商搜索, 半监督, 知识增强, 标签语义, 图学习, 马太效应

一句话总结¶

提出电商查询分类的半监督可扩展统一框架 SSUF——三个可插拔模块：知识增强（LLM 世界知识+后验点击）解决短查询信息不足、标签增强（语义编码+半监督信号）打破对后验标签的依赖、结构增强（共现+语义+层级图 GCN）传播长尾标签梯度。已在 JD.COM 部署，离线和在线 A/B 实验均显著超越 SOTA。

背景与动机¶

电商查询分类（意图/品类/品牌预测）是搜索系统的核心。面临三大挑战：

查询短且歧义：如"Black 16pro"语义不充分，直接编码无法匹配"手机"类目
马太效应恶性循环：依赖用户点击行为构造训练样本 → 热门查询过度关注 → 长尾查询泛化差
子任务孤立：意图/品类/品牌预测各自独立建模，无统一框架，优化效率低

核心问题¶

如何构建统一框架解决电商查询分类中的信息不足、后验依赖和长尾标签问题？

方法详解¶

整体框架¶

SSUF 包含三个高度可插拔的增强模块，叠加在共享文本编码器（BERT）之上。

关键设计¶

标签增强模块（Label-Enhanced）：
用 BERT 编码标签名+附加信息（产品词、高频搜索词、LLM 知识）得到语义标签表示
替代传统的标签 index 嵌入，使标签间可做语义比较
知识增强模块（Knowledge-Enhanced）：
后验知识：用户高频点击/购买产品标签
世界知识：将查询和相关产品送入开源 LLM 生成简短描述（含相关查询/品类/产品）
注意力融合：查询表示 + 知识嵌入 → 注意力加权融合
融合后计算查询-标签相似度作为半监督标签 \(y^{semi}\)（stop_gradient 防止循环依赖）
结构增强模块（Structure-Enhanced）：
三种标签关系图：共现图（条件概率）+ 语义相似图（余弦相似度）+ 层级结构图（父子关系+频率加权）
融合后用 GCN 学习标签表示 → 长尾标签通过与热门标签的图连接获得梯度传播

训练策略¶

总损失 = 后验标签 BCE 损失 + 半监督标签 BCE 损失（知识增强分支梯度截断）。推理时只需查询文本+GCN标签嵌入，知识增强分支离线。

实验关键数据¶

离线实验：在 JD.COM 数据集上所有指标显著超越 HCL4QC、SMGCN、HQC 等 SOTA
在线 A/B 实验：已部署上线，带来显著商业价值
消融实验：三个模块各有独立贡献，知识增强模块贡献最大（解决短查询信息不足）

亮点¶

统一框架：三个可插拔模块适配不同子任务（意图/品类/品牌），提升迭代效率
打破马太效应：半监督信号+结构传播使长尾标签不再依赖后验点击
LLM 生成世界知识是亮点：用 LLM 补充短查询上下文，成本可控（离线预计算）
已上线部署：非纯学术工作，有实际商业验证

局限性 / 可改进方向¶

LLM 知识质量不可控：LLM 可能生成错误信息反向污染
半监督阈值 τ 敏感：不同子任务可能需要不同阈值
仅在 JD.COM 验证：其他电商平台泛化性未知
中文特定：查询和标签均为中文，多语言未验证

与相关工作的对比¶

vs HCL4QC/SMGCN：利用层级结构但缺乏知识增强和半监督；SSUF 三合一
vs 纯 LLM 方案：LLM 直接做分类成本高且不可控；SSUF 将 LLM 知识蒸馏为离线特征
vs 标准多标签分类：忽略标签间关系和查询信息不足；SSUF 三个模块各解决一个问题

启发与关联¶

"用 LLM 离线生成知识 → 注入到小模型训练"是实用的知识蒸馏范式
半监督标签的 stop_gradient 设计巧妙地避免了循环依赖——值得借鉴
三种标签关系图的融合思路可推广到任何有层级/共现结构的分类任务

评分¶

新颖性: ⭐⭐⭐⭐ 三模块统一框架和半监督打破马太效应有创新
实验充分度: ⭐⭐⭐⭐ 离线+在线A/B+消融，工业级验证
写作质量: ⭐⭐⭐⭐ 模块化描述清晰
价值: ⭐⭐⭐⭐⭐ 已上线部署，对电商搜索有直接商业价值