跳转至

MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment

会议: ACL 2025
arXiv: 2503.01711
领域: LLM NLP
关键词: 个性化搜索, 搜索动机, 咨询对齐, 混合注意力专家, 电商搜索

一句话总结

首次建模电商搜索中的"搜索动机"——用户在搜索前的咨询行为蕴含的真实需求,提出MAPS框架融合LLM语义、MoAE池化和双重对齐机制,在真实商业数据上HR@10提升24.4%(从0.5685到0.7071)。

研究背景与动机

  • 核心发现:分析真实电商平台数据发现,相当比例用户在搜索前会进行相关咨询(AI客服),咨询中隐含了搜索关键词背后的真实动机
  • 现有方法的假设缺陷
  • 传统个性化搜索假设query完整表达用户需求
  • 实际上用户搜索"X-600"可能并不确定这就是最佳选择,需要多次搜索比较
  • 搜索动机(motivation)才是真正需要满足的需求
  • 三大对齐挑战
  • Query对齐:咨询长文本 vs 搜索关键词——语义空间差异大
  • 商品特征对齐:商品有类别属性,咨询为自然语言——模态鸿沟
  • 用户历史对齐:非所有咨询历史都与当前搜索相关——噪声过滤

方法详解

整体框架

MAPS包含三个核心模块: 1. ID-Text表示融合:利用LLM embedding + MoAE池化 2. 映射式通用对齐:对比学习对齐token-item关系 3. 序列式个性化对齐:双向注意力融合动机感知

关键设计

1. Mixture of Attention Experts (MoAE) 池化 三类注意力专家各NE个成员: - 参数化注意力池化:维护可学习query向量,对输入token计算注意力权重 - 自注意力池化:token自身query-key注意力加权 - 搜索中心交叉注意力池化:以搜索query embedding为attention query,使其他文本关注搜索相关语义 - Top-K门控选择激活专家,加权融合得到文本embedding

2. 映射式通用对齐 - 收集item的全场景文本集合(搜索、咨询、标题、广告、评论等) - 频率阈值过滤噪声文本 → 建立token-item映射 - 双向对比损失ℒ_GA: - 方向1:给定item,拉近正确token、推远错误token - 方向2:给定token,拉近正确item、推远错误item

3. 序列式个性化对齐 - 咨询动机提取:将当前query作为锚点,与咨询历史输入Transformer Encoder - 取位置0输出作为咨询动机embedding e^C - 搜索历史编码:同样方式处理搜索query历史 → e^S - 动机感知query融合:e' = α₁e^C + α₂e^S + α₃e_query(可学习权重) - 最终排序:将动机感知query与item历史经Encoder交互 + 用户embedding → p(v|s,H,u)

总损失:ℒ = ℒ_PA + λ₃ℒ_GA + λ₄||Θ||₂

实验关键数据

主实验

数据集: - Commercial:真实电商平台,2096用户×2691商品×24662次搜索交互 - Amazon:Amazon Reviews(PersonalWAB版本),GPT-4o生成模拟咨询文本

排序性能(Commercial数据集): | 模型 | HR@5 | HR@10 | NDCG@5 | NDCG@10 | |------|------|-------|--------|---------| | TEM | 0.4041 | 0.5685 | 0.2871 | 0.3402 | | CoPPS | 0.4050 | 0.5637 | 0.2831 | 0.3445 | | MAPS | 0.5281 | 0.7071 | 0.3780 | 0.4359 |

  • HR@10提升24.4%(0.5685→0.7071),NDCG@10提升28.1%
  • 所有基线对比p<0.05显著

Amazon数据集: | 模型 | HR@5 | HR@10 | NDCG@5 | NDCG@10 | |------|------|-------|--------|---------| | CoPPS | 0.3870 | 0.4854 | 0.2788 | 0.3298 | | MAPS | 0.5832 | 0.7735 | 0.4059 | 0.4676 |

  • HR@10提升59.3%,NDCG@10提升41.8%

检索性能(Commercial, MRR@10): | 方法 | MRR@10 | |------|--------| | BM25 | 0.2529 | | BGE-M3 | 0.2976 | | CHIQ | 0.3192 | | MAPS | 0.3805 |

vs 多场景方法(Commercial): | 方法 | HR@10 | NDCG@10 | |------|-------|---------| | UniSAR | 0.5838 | 0.3577 | | MAPS | 0.7071 | 0.4359 |

关键发现

消融实验(Commercial): | 配置 | HR@10 | NDCG@10 | |------|-------|---------| | MAPS完整 | 0.7071 | 0.4359 | | w/o LLM | 0.6527(-7.7%) | 0.3968 | | w/o MoAE | 0.6781(-4.1%) | 0.4096 | | w/o 通用对齐 | 0.6198(-12.3%) | 0.3669 | | w/o 个性化对齐 | 0.6334(-10.4%) | 0.3732 |

  • 通用对齐模块贡献最大(去掉后HR@10下降12.3%),其次是个性化对齐(10.4%)
  • LLM embedding和MoAE池化各贡献约4-8%
  • 搜索历史动机(e^S)和咨询动机(e^C)对效果均有独立贡献

亮点与洞察

  1. 问题发现:首次从数据驱动角度揭示"搜索前咨询"蕴含搜索动机,开辟新研究方向
  2. MoAE池化:三类注意力专家的MoE设计,巧妙解决不同文本的语义重点差异
  3. 双重对齐设计:通用对齐保证ID-文本空间统一,个性化对齐捕捉用户特定动机
  4. 真实商业数据验证:不仅有公开数据集,还有真实电商平台数据
  5. 咨询模拟策略:用GPT-4o为Amazon数据集生成模拟咨询,扩展了适用场景

局限性

  • 依赖平台提供AI咨询服务,无咨询数据的平台无法直接使用
  • Amazon的咨询数据由GPT-4o模拟生成,与真实咨询可能存在分布偏差
  • 冻结LLM embedding可能限制领域适应能力
  • 实时推理时MoAE池化的计算开销未详细讨论
  • 仅在电商搜索场景验证,未探索其他搜索场景(如学术搜索、法律检索)

相关工作

  • 个性化搜索:HEM, AEM, QEM, ZAM, TEM, CoPPS
  • 多场景搜索:SESRec(搜索+推荐对比学习), UniSAR(Transformer交叉注意力)
  • 对话式检索:CHIQ
  • 稠密检索:BGE-M3

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次建模搜索动机,问题定义有开创性
  • 技术深度: ⭐⭐⭐⭐ — MoAE+双重对齐设计系统完整
  • 实验充分性: ⭐⭐⭐⭐⭐ — 真实商业数据+公开数据,排序+检索+消融全面
  • 实用性: ⭐⭐⭐⭐ — 对有AI客服的电商平台直接适用
  • 总评: ⭐⭐⭐⭐ — 强问题驱动的工作,实验扎实,实用价值高