EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association¶

会议: ACL 2025 (Long Paper)
arXiv: 2505.15196
代码: 无（数据集因隐私问题不公开）
领域: 电子商务 / NLP基准 / LLM评估
关键词: E-commerce Script Planning, Purchase Intention, Product Retrieval, LLM Benchmark, Step-Intention Alignment

一句话总结¶

提出电商脚本规划（EcomScript）任务及其首个大规模benchmark EcomScriptBench（605K脚本、2.4M产品），通过购买意图（purchase intention）桥接用户行动步骤与产品检索的语义鸿沟，实验发现当前LLM在涉及产品的子任务上表现显著不足，注入意图知识可提升性能。

背景与动机¶

电商场景中，用户越来越希望LLM购物助手能一站式完成"脚本规划+产品推荐"——给定目标（如"策划秋季派对"），生成多步骤行动计划并在每步推荐相关产品。然而现有LLM无法同时做好脚本规划和产品检索：直接让LLM生成产品名往往不准确，而"先生成步骤再用搜索引擎检索产品"的方案存在严重的语义鸿沟——步骤描述的是用户行动（如"准备食物"），而搜索引擎匹配的是产品特征和元数据，两者语义空间不一致。此外，该领域缺乏标准化benchmark。

核心问题¶

如何定义和评测LLM在电商场景下"理解用户目标→规划行动步骤→为每步匹配合适产品"的综合能力？如何解决步骤描述与产品检索之间的语义鸿沟？

方法详解¶

整体框架¶

将EcomScript任务分解为三个序列化的判别子任务： 1. 脚本验证（Script Verification）：判断给定脚本对目标是否合理可行 2. 步骤-产品判别（Step-Product Discrimination）：判断某步骤是否需要购买产品，以及给定产品是否匹配该步骤 3. 脚本-产品整体验证（Script-Products Verification）：判断整个产品赋能脚本是否可行、各步产品是否协调

关键设计¶

购买意图（Purchase Intention）桥接语义鸿沟
为每个产品用LLM生成10条购买意图（如"用户想买跑鞋是因为要参加马拉松"）
意图描述用户行动目的，与脚本步骤的语义空间天然对齐
用SentenceBERT (T5-xxl)计算步骤与产品意图的嵌入相似度，选top-3产品
总计生成2400万条意图，覆盖240万产品
数据构建Pipeline
从Amazon购买评论中用GPT-4o-mini提取用户目标→生成脚本→挖掘产品意图→步骤-意图对齐→关键词过滤缩小搜索范围
通过AMT（56名合格标注员，从300人中筛选）对15K条目标注gold label
专家验证：96.33%标注与专家一致
评估框架
涵盖PTLM (RoBERTa, DeBERTa等)、开源LLM (LLaMA, Gemma, Mistral等)、API LLM (GPT-4o)
评估设置：Zero-shot、Few-shot、CoT、Self-Consistency CoT、Self-Reflection、Fine-tuning

实验关键数据¶

方法	脚本验证 Acc	产品判别 Acc	整体验证 Acc
LLaMA-3.1-405B (Zero-shot)	75.26%	68.16%	65.66%
GPT-4o (Zero-shot)	77.50%	73.04%	71.50%
GPT-4o (5-shot)	77.92%	73.90%	72.85%
LLaMA-3.1-8B (Fine-tuned)	85.24%	76.44%	74.48%
Mistral-7B (Fine-tuned)	85.72%	75.63%	73.18%
Mistral-7B + 意图知识 + Fine-tuned	85.87%	81.18%	78.94%

消融实验要点¶

涉及产品的子任务（Task 2, 3）远比纯脚本验证（Task 1）困难，说明LLM缺乏电商产品知识
CoT提示反而降低性能（因为依赖内部推理而非外部产品信号）
注入FolkScope+MIND意图知识后再Fine-tune，产品判别任务提升约6%
GPT-4o错误分析：68%源于产品理解错误、27%跨步骤冲突推理失败、5%标注/内部冲突
产品类别影响大：Toys&Games高达84.37%，Beauty&Personal Care仅63.95%

亮点¶

"购买意图"作为桥梁的思路很巧：与其让搜索引擎匹配"准备食物"和"厨具"的语义——不如中间加一层意图"用户想做饭"，自然打通步骤和产品
任务分解为三个判别子任务：巧妙规避了直接让LLM做端对端脚本+产品生成的困难，同时保持评估的标准化
数据规模大（605K脚本、2.4M产品、24M意图），数据质量有保证（专家验证96%+）
全面的baseline评估：覆盖20+模型、多种prompting策略、Fine-tuning，结果有说服力

局限性 / 可改进方向¶

数据集因隐私原因不公开，影响可复现性
仅考虑文本信息，未利用产品图片等多模态信号（作者也指出multimodal有潜力）
三个子任务均为二分类，较简化，未覆盖产品排序等更实际的场景
步骤间产品兼容性检测依赖人工标注，未自动化
数据构建依赖GPT-4o-mini的LLM偏差可能影响数据分布

与相关工作的对比¶

vs 传统电商推荐：传统方法基于用户历史行为做单产品推荐；本文做多步骤规划级别的产品关联，更接近"购物助手"场景
vs 脚本规划（ScriptWorld等）：之前的脚本规划仅考虑行动序列，不涉及产品检索；本文首次将产品知识融入脚本规划
vs 意图理解（FolkScope/COSMO/MIND）：这些工作挖掘产品意图但不做脚本规划；本文将意图作为桥梁连接规划与检索

启发与关联¶

"意图"作为中间语义层的思路可扩展到其他跨域检索问题
LLM在结构化产品知识上的不足提示，可能需要外部知识增强或检索增强策略

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义电商脚本规划任务并引入意图桥接，但核心技术（SentenceBERT+prompting）不算新
实验充分度: ⭐⭐⭐⭐⭐ 20+模型、多策略评估、错误分析、类别分析非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，但论文较长（22页主文+附录）
对我的价值: ⭐⭐ 电商场景较特殊，但"意图作为语义桥梁"的思路有启发