MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment¶
会议: ACL 2025
arXiv: 2503.01711
领域: LLM NLP
关键词: 个性化搜索, 搜索动机, 咨询对齐, 混合注意力专家, 电商搜索
一句话总结¶
首次建模电商搜索中的"搜索动机"——用户在搜索前的咨询行为蕴含的真实需求,提出MAPS框架融合LLM语义、MoAE池化和双重对齐机制,在真实商业数据上HR@10提升24.4%(从0.5685到0.7071)。
研究背景与动机¶
- 核心发现:分析真实电商平台数据发现,相当比例用户在搜索前会进行相关咨询(AI客服),咨询中隐含了搜索关键词背后的真实动机
- 现有方法的假设缺陷:
- 传统个性化搜索假设query完整表达用户需求
- 实际上用户搜索"X-600"可能并不确定这就是最佳选择,需要多次搜索比较
- 搜索动机(motivation)才是真正需要满足的需求
- 三大对齐挑战:
- Query对齐:咨询长文本 vs 搜索关键词——语义空间差异大
- 商品特征对齐:商品有类别属性,咨询为自然语言——模态鸿沟
- 用户历史对齐:非所有咨询历史都与当前搜索相关——噪声过滤
方法详解¶
整体框架¶
MAPS包含三个核心模块: 1. ID-Text表示融合:利用LLM embedding + MoAE池化 2. 映射式通用对齐:对比学习对齐token-item关系 3. 序列式个性化对齐:双向注意力融合动机感知
关键设计¶
1. Mixture of Attention Experts (MoAE) 池化 三类注意力专家各NE个成员: - 参数化注意力池化:维护可学习query向量,对输入token计算注意力权重 - 自注意力池化:token自身query-key注意力加权 - 搜索中心交叉注意力池化:以搜索query embedding为attention query,使其他文本关注搜索相关语义 - Top-K门控选择激活专家,加权融合得到文本embedding
2. 映射式通用对齐 - 收集item的全场景文本集合(搜索、咨询、标题、广告、评论等) - 频率阈值过滤噪声文本 → 建立token-item映射 - 双向对比损失ℒ_GA: - 方向1:给定item,拉近正确token、推远错误token - 方向2:给定token,拉近正确item、推远错误item
3. 序列式个性化对齐 - 咨询动机提取:将当前query作为锚点,与咨询历史输入Transformer Encoder - 取位置0输出作为咨询动机embedding e^C - 搜索历史编码:同样方式处理搜索query历史 → e^S - 动机感知query融合:e' = α₁e^C + α₂e^S + α₃e_query(可学习权重) - 最终排序:将动机感知query与item历史经Encoder交互 + 用户embedding → p(v|s,H,u)
总损失:ℒ = ℒ_PA + λ₃ℒ_GA + λ₄||Θ||₂
实验关键数据¶
主实验¶
数据集: - Commercial:真实电商平台,2096用户×2691商品×24662次搜索交互 - Amazon:Amazon Reviews(PersonalWAB版本),GPT-4o生成模拟咨询文本
排序性能(Commercial数据集): | 模型 | HR@5 | HR@10 | NDCG@5 | NDCG@10 | |------|------|-------|--------|---------| | TEM | 0.4041 | 0.5685 | 0.2871 | 0.3402 | | CoPPS | 0.4050 | 0.5637 | 0.2831 | 0.3445 | | MAPS | 0.5281 | 0.7071 | 0.3780 | 0.4359 |
- HR@10提升24.4%(0.5685→0.7071),NDCG@10提升28.1%
- 所有基线对比p<0.05显著
Amazon数据集: | 模型 | HR@5 | HR@10 | NDCG@5 | NDCG@10 | |------|------|-------|--------|---------| | CoPPS | 0.3870 | 0.4854 | 0.2788 | 0.3298 | | MAPS | 0.5832 | 0.7735 | 0.4059 | 0.4676 |
- HR@10提升59.3%,NDCG@10提升41.8%
检索性能(Commercial, MRR@10): | 方法 | MRR@10 | |------|--------| | BM25 | 0.2529 | | BGE-M3 | 0.2976 | | CHIQ | 0.3192 | | MAPS | 0.3805 |
vs 多场景方法(Commercial): | 方法 | HR@10 | NDCG@10 | |------|-------|---------| | UniSAR | 0.5838 | 0.3577 | | MAPS | 0.7071 | 0.4359 |
关键发现¶
消融实验(Commercial): | 配置 | HR@10 | NDCG@10 | |------|-------|---------| | MAPS完整 | 0.7071 | 0.4359 | | w/o LLM | 0.6527(-7.7%) | 0.3968 | | w/o MoAE | 0.6781(-4.1%) | 0.4096 | | w/o 通用对齐 | 0.6198(-12.3%) | 0.3669 | | w/o 个性化对齐 | 0.6334(-10.4%) | 0.3732 |
- 通用对齐模块贡献最大(去掉后HR@10下降12.3%),其次是个性化对齐(10.4%)
- LLM embedding和MoAE池化各贡献约4-8%
- 搜索历史动机(e^S)和咨询动机(e^C)对效果均有独立贡献
亮点与洞察¶
- 问题发现:首次从数据驱动角度揭示"搜索前咨询"蕴含搜索动机,开辟新研究方向
- MoAE池化:三类注意力专家的MoE设计,巧妙解决不同文本的语义重点差异
- 双重对齐设计:通用对齐保证ID-文本空间统一,个性化对齐捕捉用户特定动机
- 真实商业数据验证:不仅有公开数据集,还有真实电商平台数据
- 咨询模拟策略:用GPT-4o为Amazon数据集生成模拟咨询,扩展了适用场景
局限性¶
- 依赖平台提供AI咨询服务,无咨询数据的平台无法直接使用
- Amazon的咨询数据由GPT-4o模拟生成,与真实咨询可能存在分布偏差
- 冻结LLM embedding可能限制领域适应能力
- 实时推理时MoAE池化的计算开销未详细讨论
- 仅在电商搜索场景验证,未探索其他搜索场景(如学术搜索、法律检索)
相关工作¶
- 个性化搜索:HEM, AEM, QEM, ZAM, TEM, CoPPS
- 多场景搜索:SESRec(搜索+推荐对比学习), UniSAR(Transformer交叉注意力)
- 对话式检索:CHIQ
- 稠密检索:BGE-M3
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次建模搜索动机,问题定义有开创性
- 技术深度: ⭐⭐⭐⭐ — MoAE+双重对齐设计系统完整
- 实验充分性: ⭐⭐⭐⭐⭐ — 真实商业数据+公开数据,排序+检索+消融全面
- 实用性: ⭐⭐⭐⭐ — 对有AI客服的电商平台直接适用
- 总评: ⭐⭐⭐⭐ — 强问题驱动的工作,实验扎实,实用价值高