EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association¶
会议: ACL 2025 (Long Paper)
arXiv: 2505.15196
代码: 无(数据集因隐私问题不公开)
领域: 电子商务 / NLP基准 / LLM评估
关键词: E-commerce Script Planning, Purchase Intention, Product Retrieval, LLM Benchmark, Step-Intention Alignment
一句话总结¶
提出电商脚本规划(EcomScript)任务及其首个大规模benchmark EcomScriptBench(605K脚本、2.4M产品),通过购买意图(purchase intention)桥接用户行动步骤与产品检索的语义鸿沟,实验发现当前LLM在涉及产品的子任务上表现显著不足,注入意图知识可提升性能。
背景与动机¶
电商场景中,用户越来越希望LLM购物助手能一站式完成"脚本规划+产品推荐"——给定目标(如"策划秋季派对"),生成多步骤行动计划并在每步推荐相关产品。然而现有LLM无法同时做好脚本规划和产品检索:直接让LLM生成产品名往往不准确,而"先生成步骤再用搜索引擎检索产品"的方案存在严重的语义鸿沟——步骤描述的是用户行动(如"准备食物"),而搜索引擎匹配的是产品特征和元数据,两者语义空间不一致。此外,该领域缺乏标准化benchmark。
核心问题¶
如何定义和评测LLM在电商场景下"理解用户目标→规划行动步骤→为每步匹配合适产品"的综合能力?如何解决步骤描述与产品检索之间的语义鸿沟?
方法详解¶
整体框架¶
将EcomScript任务分解为三个序列化的判别子任务: 1. 脚本验证(Script Verification):判断给定脚本对目标是否合理可行 2. 步骤-产品判别(Step-Product Discrimination):判断某步骤是否需要购买产品,以及给定产品是否匹配该步骤 3. 脚本-产品整体验证(Script-Products Verification):判断整个产品赋能脚本是否可行、各步产品是否协调
关键设计¶
- 购买意图(Purchase Intention)桥接语义鸿沟
- 为每个产品用LLM生成10条购买意图(如"用户想买跑鞋是因为要参加马拉松")
- 意图描述用户行动目的,与脚本步骤的语义空间天然对齐
- 用SentenceBERT (T5-xxl)计算步骤与产品意图的嵌入相似度,选top-3产品
-
总计生成2400万条意图,覆盖240万产品
-
数据构建Pipeline
- 从Amazon购买评论中用GPT-4o-mini提取用户目标→生成脚本→挖掘产品意图→步骤-意图对齐→关键词过滤缩小搜索范围
- 通过AMT(56名合格标注员,从300人中筛选)对15K条目标注gold label
-
专家验证:96.33%标注与专家一致
-
评估框架
- 涵盖PTLM (RoBERTa, DeBERTa等)、开源LLM (LLaMA, Gemma, Mistral等)、API LLM (GPT-4o)
- 评估设置:Zero-shot、Few-shot、CoT、Self-Consistency CoT、Self-Reflection、Fine-tuning
实验关键数据¶
| 方法 | 脚本验证 Acc | 产品判别 Acc | 整体验证 Acc |
|---|---|---|---|
| LLaMA-3.1-405B (Zero-shot) | 75.26% | 68.16% | 65.66% |
| GPT-4o (Zero-shot) | 77.50% | 73.04% | 71.50% |
| GPT-4o (5-shot) | 77.92% | 73.90% | 72.85% |
| LLaMA-3.1-8B (Fine-tuned) | 85.24% | 76.44% | 74.48% |
| Mistral-7B (Fine-tuned) | 85.72% | 75.63% | 73.18% |
| Mistral-7B + 意图知识 + Fine-tuned | 85.87% | 81.18% | 78.94% |
消融实验要点¶
- 涉及产品的子任务(Task 2, 3)远比纯脚本验证(Task 1)困难,说明LLM缺乏电商产品知识
- CoT提示反而降低性能(因为依赖内部推理而非外部产品信号)
- 注入FolkScope+MIND意图知识后再Fine-tune,产品判别任务提升约6%
- GPT-4o错误分析:68%源于产品理解错误、27%跨步骤冲突推理失败、5%标注/内部冲突
- 产品类别影响大:Toys&Games高达84.37%,Beauty&Personal Care仅63.95%
亮点¶
- "购买意图"作为桥梁的思路很巧:与其让搜索引擎匹配"准备食物"和"厨具"的语义——不如中间加一层意图"用户想做饭",自然打通步骤和产品
- 任务分解为三个判别子任务:巧妙规避了直接让LLM做端对端脚本+产品生成的困难,同时保持评估的标准化
- 数据规模大(605K脚本、2.4M产品、24M意图),数据质量有保证(专家验证96%+)
- 全面的baseline评估:覆盖20+模型、多种prompting策略、Fine-tuning,结果有说服力
局限性 / 可改进方向¶
- 数据集因隐私原因不公开,影响可复现性
- 仅考虑文本信息,未利用产品图片等多模态信号(作者也指出multimodal有潜力)
- 三个子任务均为二分类,较简化,未覆盖产品排序等更实际的场景
- 步骤间产品兼容性检测依赖人工标注,未自动化
- 数据构建依赖GPT-4o-mini的LLM偏差可能影响数据分布
与相关工作的对比¶
- vs 传统电商推荐:传统方法基于用户历史行为做单产品推荐;本文做多步骤规划级别的产品关联,更接近"购物助手"场景
- vs 脚本规划(ScriptWorld等):之前的脚本规划仅考虑行动序列,不涉及产品检索;本文首次将产品知识融入脚本规划
- vs 意图理解(FolkScope/COSMO/MIND):这些工作挖掘产品意图但不做脚本规划;本文将意图作为桥梁连接规划与检索
启发与关联¶
- "意图"作为中间语义层的思路可扩展到其他跨域检索问题
- LLM在结构化产品知识上的不足提示,可能需要外部知识增强或检索增强策略
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次定义电商脚本规划任务并引入意图桥接,但核心技术(SentenceBERT+prompting)不算新
- 实验充分度: ⭐⭐⭐⭐⭐ 20+模型、多策略评估、错误分析、类别分析非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,但论文较长(22页主文+附录)
- 对我的价值: ⭐⭐ 电商场景较特殊,但"意图作为语义桥梁"的思路有启发