EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association¶
- 会议: ACL 2025
- arXiv: 2505.15196
- 代码: 未提供
- 领域: LLM Evaluation / 电商 NLP / 脚本规划
- 关键词: E-commerce Script Planning, Purchase Intention, Product Association, Benchmark, Multi-task Evaluation
一句话总结¶
定义电商脚本规划(EcomScript)任务并构建首个大规模基准 EcomScriptBench(60 万脚本 + 240 万产品),通过购买意图桥接动作步骤与产品搜索的语义鸿沟,揭示当前 LLM 在该任务上的显著不足。
研究背景与动机¶
-
现有痛点:用户希望 LLM 购物助手能根据目标(如"策划秋季派对")生成分步骤脚本并在每步推荐产品,但存在三大挑战:LLM 无法同时规划和检索产品、脚本步骤与搜索查询存在语义鸿沟(68% 以步骤为查询的搜索返回不佳)、缺乏评估基准。
-
核心矛盾:脚本中的步骤描述的是用户应执行的"动作"(如"准备热饮"),而搜索引擎需要匹配的是产品的"特征和元数据"(如"保温杯 不锈钢 500ml"),两者在语义空间上存在根本性错位。现有 LLM 既无法生成精确的产品标题来检索,传统搜索引擎也无法理解动作级查询。
-
本文要解决:(1) 形式化定义电商脚本规划的三个子任务(脚本验证、步骤-产品判别、整体验证);(2) 设计一种基于购买意图的步骤-产品对齐策略来桥接语义鸿沟;(3) 构建大规模基准并系统评估 20+ 模型的能力。
-
切入角度:作者观察到产品的"购买意图"(如"PersonX wants to buy this because they want to prepare hot beverages")天然地连接了产品属性和用户动作,因此将意图作为中间语义层进行间接匹配,绕过直接的步骤-产品匹配困难。
方法详解¶
整体框架¶
将电商脚本规划分解为三个顺序判别子任务,构建 generate-then-discriminate 范式。数据构建流程为:用户购买评论 → GPT-4o-mini 推断目标 → GPT-4o-mini 生成脚本 → 判断步骤购买必要性 → 意图对齐选产品 → AMT 人工标注。
关键设计¶
-
三子任务分解:
- 功能:将开放式脚本规划任务转化为三个可评估的二分类任务
- 核心思路:Task 1 脚本验证(输入目标+脚本,判断脚本是否可行)→ Task 2 步骤-产品判别(输入步骤+产品,判断产品是否匹配该步骤)→ Task 3 整体验证(输入完整脚本+所有步骤产品,判断是否整体协调)
- 设计动机:直接评估生成质量困难,判别式任务使评估标准化,且三个子任务可组合为完整的自动化购物助手流程
-
购买意图挖掘与对齐:
- 功能:用购买意图作为桥梁连接动作步骤与产品
- 核心思路:(a) 用 GPT-4o-mini 从产品元数据推断 10 个购买意图(如"PersonX wants to buy this because..."),总计 2400 万条意图,专家验证通过率 98.5%;(b) 对每个需产品的步骤,先用 LLM 生成关键词过滤产品池;(c) 用 SentenceBERT 计算步骤与候选产品意图的平均嵌入相似度;(d) 选 top-3 产品(阈值 \(\tau=0.45\))
- 设计动机:先导实验表明直接用步骤作搜索查询,68% 返回结果不佳且产品雷同。意图表达的是用户"想用产品做什么",语义上天然接近动作步骤
-
大规模数据集构建:
- 功能:构建可扩展的产品赋能脚本知识库
- 核心思路:基于 Amazon Review 数据(240 万产品、370 万评论),使用 5-shot 提示引导 GPT-4o-mini 从评论推断用户目标 → 生成脚本 → 挖掘意图。最终得到 605,229 个脚本(平均 9.8 步),专家接受率 94.0%。每个子任务随机采样 5000 条由 56 名 AMT 工人标注(5 票多数决),IAA = 0.53 Fleiss Kappa
- 设计动机:需要真实场景数据而非合成数据,因此从真实购买评论出发推断目标
训练策略¶
微调模型使用标准二分类交叉熵损失,LLM 使用 LoRA 微调。对 PTLM(RoBERTa、DeBERTa 等)使用零样本推断。
实验关键数据¶
主实验 — 零样本 LLM 性能¶
| 模型 | 脚本验证 Acc | 产品判别 Acc | 整体验证 Acc |
|---|---|---|---|
| Random | 50.00 | 50.00 | 50.00 |
| Majority | 60.98 | 57.67 | 56.46 |
| Llama-3.1-8B | 71.45 | 65.74 | 61.63 |
| Llama-3.1-70B | 72.65 | 66.15 | 62.50 |
| Llama-3.1-405B | 75.26 | 68.16 | 65.66 |
| GPT-4o (5-shot) | 77.92 | 73.90 | 72.85 |
| VERA-xxl 11B (PTLM) | 55.77 | 54.49 | 54.90 |
消融实验 — 微调 + 意图知识注入¶
| 方法 | Backbone | 脚本验证 Acc | 产品判别 Acc | 整体验证 Acc |
|---|---|---|---|---|
| Zero-shot | Llama-3.1-8B | 71.45 | 65.74 | 61.63 |
| Fine-tuned (EcomScript) | Llama-3.1-8B | 83.86 | 77.70 | 75.88 |
| + FolkScope+MIND 意图数据 | Llama-3.1-8B | 84.65 | 78.60 | 76.35 |
| Fine-tuned (best PTLM) | VERA-xxl 11B | 69.42 | 57.02 | 67.15 |
| Fine-tuned (best overall) | Mistral-7B | 85.72 | 75.63 | 73.18 |
关键发现¶
- 所有 LLM 表现不佳:即使最强的 GPT-4o (5-shot) 在产品判别和整体验证上也仅约 73%,远未达实用水平
- 微调大幅提升但有天花板:Llama-3.1-8B 微调后脚本验证从 71.45% 升至 83.86%(+12.4pp),但产品判别仍仅 77.7%
- 意图知识注入有效:加入外部购买意图数据进一步提升 1-2pp,验证了意图作为语义桥梁的价值
- PTLM 远不如 LLM:VERA-xxl 11B 零样本 Acc 仅约 55%,微调后也仅约 67%,说明任务需要强推理能力
- 任务难度递增:脚本验证 > 产品判别 > 整体验证,整体验证最难(需跨步骤协调推理)
亮点与洞察¶
- 任务定义新颖:首次将电商购物助手的工作流形式化为三个可评估子任务,为 LLM 购物助手能力评估提供了清晰框架。这种"将生成任务拆解为判别子任务"的思路可迁移到其他评估场景
- 意图桥接策略:用购买意图而非产品特征进行步骤-产品匹配,优雅解决了语义鸿沟问题。先导实验中 68% 直接搜索失败的数据为这一设计提供了强有力的动机
- 数据规模与质量:60.5 万脚本、240 万产品、2400 万意图的大规模数据集,专家验证通过率 96.3%,在数据质量控制上下了大功夫
局限性¶
- 产品池仅来自 Amazon,跨平台(特别是中文电商)的泛化性未知
- 三个子任务均为二分类,未考虑产品排序质量或脚本步骤多样性评估
- 脚本最长 10 步,复杂场景(如家装、旅行规划)可能需更长脚本
- 意图挖掘依赖 GPT-4o-mini,可能引入特定偏见
- IAA 为 0.53 (Fleiss Kappa),属中等一致性,部分任务主观性较强
相关工作¶
- vs 脚本规划 (Yuan et al., 2023):传统脚本规划不涉及产品推荐,本文首次将规划与电商检索结合
- vs FolkScope 购买意图 (Yu et al., 2023):FolkScope 仅做意图生成和组织,本文将意图用作步骤-产品匹配的桥梁,是意图的下游应用
- vs 电商推荐 (Ding et al., 2024):Ding 等人发现 LLM 无法有效利用意图进行推荐,本文通过 SentenceBERT 嵌入匹配绕过了这一问题
评分¶
- 新颖性: 8/10 — 电商脚本规划任务定义新颖,购买意图桥接策略巧妙
- 技术深度: 6/10 — 方法主要基于 LLM 提示和 SentenceBERT 相似度,技术复杂度不高
- 实验充分度: 8/10 — 20+ 模型评估,涵盖零样本/微调/API 三种范式,消融充分
- 清晰度: 8/10 — 任务定义清楚,数据构建流程图示化,逻辑连贯
- 总分: 7.5/10
相关论文¶
- [ACL 2026] SessionIntentBench: A Multi-Task Inter-Session Intention-Shift Modeling Benchmark
- [ACL 2025] MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark
- [ACL 2025] TripTailor: A Real-World Benchmark for Personalized Travel Planning
- [ACL 2025] McBE: A Multi-task Chinese Bias Evaluation Benchmark for Large Language Models
- [ACL 2025] SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science