MAPS: Motivation-Aware Personalized Search via LLM-Driven Consultation Alignment¶

会议: ACL 2025
arXiv: 2503.01711
领域: LLM NLP
关键词: 个性化搜索, 搜索动机, 咨询对齐, 混合注意力专家, 电商搜索

一句话总结¶

首次建模电商搜索中的"搜索动机"——用户在搜索前的咨询行为蕴含的真实需求，提出MAPS框架融合LLM语义、MoAE池化和双重对齐机制，在真实商业数据上HR@10提升24.4%（从0.5685到0.7071）。

研究背景与动机¶

核心发现：分析真实电商平台数据发现，相当比例用户在搜索前会进行相关咨询（AI客服），咨询中隐含了搜索关键词背后的真实动机
现有方法的假设缺陷：
传统个性化搜索假设query完整表达用户需求
实际上用户搜索"X-600"可能并不确定这就是最佳选择，需要多次搜索比较
搜索动机（motivation）才是真正需要满足的需求
三大对齐挑战：
Query对齐：咨询长文本 vs 搜索关键词——语义空间差异大
商品特征对齐：商品有类别属性，咨询为自然语言——模态鸿沟
用户历史对齐：非所有咨询历史都与当前搜索相关——噪声过滤

方法详解¶

整体框架¶

MAPS包含三个核心模块： 1. ID-Text表示融合：利用LLM embedding + MoAE池化 2. 映射式通用对齐：对比学习对齐token-item关系 3. 序列式个性化对齐：双向注意力融合动机感知

关键设计¶

1. Mixture of Attention Experts (MoAE) 池化 三类注意力专家各NE个成员： - 参数化注意力池化：维护可学习query向量，对输入token计算注意力权重 - 自注意力池化：token自身query-key注意力加权 - 搜索中心交叉注意力池化：以搜索query embedding为attention query，使其他文本关注搜索相关语义 - Top-K门控选择激活专家，加权融合得到文本embedding

2. 映射式通用对齐 - 收集item的全场景文本集合（搜索、咨询、标题、广告、评论等） - 频率阈值过滤噪声文本 → 建立token-item映射 - 双向对比损失ℒ_GA： - 方向1：给定item，拉近正确token、推远错误token - 方向2：给定token，拉近正确item、推远错误item

3. 序列式个性化对齐 - 咨询动机提取：将当前query作为锚点，与咨询历史输入Transformer Encoder - 取位置0输出作为咨询动机embedding e^C - 搜索历史编码：同样方式处理搜索query历史 → e^S - 动机感知query融合：e' = α₁e^C + α₂e^S + α₃e_query（可学习权重） - 最终排序：将动机感知query与item历史经Encoder交互 + 用户embedding → p(v|s,H,u)

总损失：ℒ = ℒ_PA + λ₃ℒ_GA + λ₄||Θ||₂

实验关键数据¶

主实验¶

数据集： - Commercial：真实电商平台，2096用户×2691商品×24662次搜索交互 - Amazon：Amazon Reviews（PersonalWAB版本），GPT-4o生成模拟咨询文本

排序性能（Commercial数据集）： | 模型 | HR@5 | HR@10 | NDCG@5 | NDCG@10 | |------|------|-------|--------|---------| | TEM | 0.4041 | 0.5685 | 0.2871 | 0.3402 | | CoPPS | 0.4050 | 0.5637 | 0.2831 | 0.3445 | | MAPS | 0.5281 | 0.7071 | 0.3780 | 0.4359 |

HR@10提升24.4%（0.5685→0.7071），NDCG@10提升28.1%
所有基线对比p<0.05显著

Amazon数据集： | 模型 | HR@5 | HR@10 | NDCG@5 | NDCG@10 | |------|------|-------|--------|---------| | CoPPS | 0.3870 | 0.4854 | 0.2788 | 0.3298 | | MAPS | 0.5832 | 0.7735 | 0.4059 | 0.4676 |

HR@10提升59.3%，NDCG@10提升41.8%

检索性能（Commercial, MRR@10）： | 方法 | MRR@10 | |------|--------| | BM25 | 0.2529 | | BGE-M3 | 0.2976 | | CHIQ | 0.3192 | | MAPS | 0.3805 |

vs 多场景方法（Commercial）： | 方法 | HR@10 | NDCG@10 | |------|-------|---------| | UniSAR | 0.5838 | 0.3577 | | MAPS | 0.7071 | 0.4359 |

关键发现¶

消融实验（Commercial）： | 配置 | HR@10 | NDCG@10 | |------|-------|---------| | MAPS完整 | 0.7071 | 0.4359 | | w/o LLM | 0.6527(-7.7%) | 0.3968 | | w/o MoAE | 0.6781(-4.1%) | 0.4096 | | w/o 通用对齐 | 0.6198(-12.3%) | 0.3669 | | w/o 个性化对齐 | 0.6334(-10.4%) | 0.3732 |

通用对齐模块贡献最大（去掉后HR@10下降12.3%），其次是个性化对齐（10.4%）
LLM embedding和MoAE池化各贡献约4-8%
搜索历史动机（e^S）和咨询动机（e^C）对效果均有独立贡献

亮点与洞察¶

问题发现：首次从数据驱动角度揭示"搜索前咨询"蕴含搜索动机，开辟新研究方向
MoAE池化：三类注意力专家的MoE设计，巧妙解决不同文本的语义重点差异
双重对齐设计：通用对齐保证ID-文本空间统一，个性化对齐捕捉用户特定动机
真实商业数据验证：不仅有公开数据集，还有真实电商平台数据
咨询模拟策略：用GPT-4o为Amazon数据集生成模拟咨询，扩展了适用场景

局限性¶

依赖平台提供AI咨询服务，无咨询数据的平台无法直接使用
Amazon的咨询数据由GPT-4o模拟生成，与真实咨询可能存在分布偏差
冻结LLM embedding可能限制领域适应能力
实时推理时MoAE池化的计算开销未详细讨论
仅在电商搜索场景验证，未探索其他搜索场景（如学术搜索、法律检索）

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次建模搜索动机，问题定义有开创性
技术深度: ⭐⭐⭐⭐ — MoAE+双重对齐设计系统完整
实验充分性: ⭐⭐⭐⭐⭐ — 真实商业数据+公开数据，排序+检索+消融全面
实用性: ⭐⭐⭐⭐ — 对有AI客服的电商平台直接适用
总评: ⭐⭐⭐⭐ — 强问题驱动的工作，实验扎实，实用价值高