跳转至

EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association

会议: ACL 2025 (Long Paper)
arXiv: 2505.15196
代码: 无(数据集因隐私问题不公开)
领域: 电子商务 / NLP基准 / LLM评估
关键词: E-commerce Script Planning, Purchase Intention, Product Retrieval, LLM Benchmark, Step-Intention Alignment

一句话总结

提出电商脚本规划(EcomScript)任务及其首个大规模benchmark EcomScriptBench(605K脚本、2.4M产品),通过购买意图(purchase intention)桥接用户行动步骤与产品检索的语义鸿沟,实验发现当前LLM在涉及产品的子任务上表现显著不足,注入意图知识可提升性能。

背景与动机

电商场景中,用户越来越希望LLM购物助手能一站式完成"脚本规划+产品推荐"——给定目标(如"策划秋季派对"),生成多步骤行动计划并在每步推荐相关产品。然而现有LLM无法同时做好脚本规划和产品检索:直接让LLM生成产品名往往不准确,而"先生成步骤再用搜索引擎检索产品"的方案存在严重的语义鸿沟——步骤描述的是用户行动(如"准备食物"),而搜索引擎匹配的是产品特征和元数据,两者语义空间不一致。此外,该领域缺乏标准化benchmark。

核心问题

如何定义和评测LLM在电商场景下"理解用户目标→规划行动步骤→为每步匹配合适产品"的综合能力?如何解决步骤描述与产品检索之间的语义鸿沟?

方法详解

整体框架

将EcomScript任务分解为三个序列化的判别子任务: 1. 脚本验证(Script Verification):判断给定脚本对目标是否合理可行 2. 步骤-产品判别(Step-Product Discrimination):判断某步骤是否需要购买产品,以及给定产品是否匹配该步骤 3. 脚本-产品整体验证(Script-Products Verification):判断整个产品赋能脚本是否可行、各步产品是否协调

关键设计

  1. 购买意图(Purchase Intention)桥接语义鸿沟
  2. 为每个产品用LLM生成10条购买意图(如"用户想买跑鞋是因为要参加马拉松")
  3. 意图描述用户行动目的,与脚本步骤的语义空间天然对齐
  4. 用SentenceBERT (T5-xxl)计算步骤与产品意图的嵌入相似度,选top-3产品
  5. 总计生成2400万条意图,覆盖240万产品

  6. 数据构建Pipeline

  7. 从Amazon购买评论中用GPT-4o-mini提取用户目标→生成脚本→挖掘产品意图→步骤-意图对齐→关键词过滤缩小搜索范围
  8. 通过AMT(56名合格标注员,从300人中筛选)对15K条目标注gold label
  9. 专家验证:96.33%标注与专家一致

  10. 评估框架

  11. 涵盖PTLM (RoBERTa, DeBERTa等)、开源LLM (LLaMA, Gemma, Mistral等)、API LLM (GPT-4o)
  12. 评估设置:Zero-shot、Few-shot、CoT、Self-Consistency CoT、Self-Reflection、Fine-tuning

实验关键数据

方法 脚本验证 Acc 产品判别 Acc 整体验证 Acc
LLaMA-3.1-405B (Zero-shot) 75.26% 68.16% 65.66%
GPT-4o (Zero-shot) 77.50% 73.04% 71.50%
GPT-4o (5-shot) 77.92% 73.90% 72.85%
LLaMA-3.1-8B (Fine-tuned) 85.24% 76.44% 74.48%
Mistral-7B (Fine-tuned) 85.72% 75.63% 73.18%
Mistral-7B + 意图知识 + Fine-tuned 85.87% 81.18% 78.94%

消融实验要点

  • 涉及产品的子任务(Task 2, 3)远比纯脚本验证(Task 1)困难,说明LLM缺乏电商产品知识
  • CoT提示反而降低性能(因为依赖内部推理而非外部产品信号)
  • 注入FolkScope+MIND意图知识后再Fine-tune,产品判别任务提升约6%
  • GPT-4o错误分析:68%源于产品理解错误、27%跨步骤冲突推理失败、5%标注/内部冲突
  • 产品类别影响大:Toys&Games高达84.37%,Beauty&Personal Care仅63.95%

亮点

  • "购买意图"作为桥梁的思路很巧:与其让搜索引擎匹配"准备食物"和"厨具"的语义——不如中间加一层意图"用户想做饭",自然打通步骤和产品
  • 任务分解为三个判别子任务:巧妙规避了直接让LLM做端对端脚本+产品生成的困难,同时保持评估的标准化
  • 数据规模大(605K脚本、2.4M产品、24M意图),数据质量有保证(专家验证96%+)
  • 全面的baseline评估:覆盖20+模型、多种prompting策略、Fine-tuning,结果有说服力

局限性 / 可改进方向

  • 数据集因隐私原因不公开,影响可复现性
  • 仅考虑文本信息,未利用产品图片等多模态信号(作者也指出multimodal有潜力)
  • 三个子任务均为二分类,较简化,未覆盖产品排序等更实际的场景
  • 步骤间产品兼容性检测依赖人工标注,未自动化
  • 数据构建依赖GPT-4o-mini的LLM偏差可能影响数据分布

与相关工作的对比

  • vs 传统电商推荐:传统方法基于用户历史行为做单产品推荐;本文做多步骤规划级别的产品关联,更接近"购物助手"场景
  • vs 脚本规划(ScriptWorld等):之前的脚本规划仅考虑行动序列,不涉及产品检索;本文首次将产品知识融入脚本规划
  • vs 意图理解(FolkScope/COSMO/MIND):这些工作挖掘产品意图但不做脚本规划;本文将意图作为桥梁连接规划与检索

启发与关联

  • "意图"作为中间语义层的思路可扩展到其他跨域检索问题
  • LLM在结构化产品知识上的不足提示,可能需要外部知识增强或检索增强策略

评分

  • 新颖性: ⭐⭐⭐⭐ 首次定义电商脚本规划任务并引入意图桥接,但核心技术(SentenceBERT+prompting)不算新
  • 实验充分度: ⭐⭐⭐⭐⭐ 20+模型、多策略评估、错误分析、类别分析非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,但论文较长(22页主文+附录)
  • 对我的价值: ⭐⭐ 电商场景较特殊,但"意图作为语义桥梁"的思路有启发