EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association¶

会议: ACL 2025
arXiv: 2505.15196
代码: 未提供
领域: LLM Evaluation / 电商 NLP / 脚本规划
关键词: E-commerce Script Planning, Purchase Intention, Product Association, Benchmark, Multi-task Evaluation

一句话总结¶

定义电商脚本规划（EcomScript）任务并构建首个大规模基准 EcomScriptBench（60 万脚本 + 240 万产品），通过购买意图桥接动作步骤与产品搜索的语义鸿沟，揭示当前 LLM 在该任务上的显著不足。

研究背景与动机¶

现有痛点：用户希望 LLM 购物助手能根据目标（如"策划秋季派对"）生成分步骤脚本并在每步推荐产品，但存在三大挑战：LLM 无法同时规划和检索产品、脚本步骤与搜索查询存在语义鸿沟（68% 以步骤为查询的搜索返回不佳）、缺乏评估基准。
核心矛盾：脚本中的步骤描述的是用户应执行的"动作"（如"准备热饮"），而搜索引擎需要匹配的是产品的"特征和元数据"（如"保温杯不锈钢 500ml"），两者在语义空间上存在根本性错位。现有 LLM 既无法生成精确的产品标题来检索，传统搜索引擎也无法理解动作级查询。
本文要解决：(1) 形式化定义电商脚本规划的三个子任务（脚本验证、步骤-产品判别、整体验证）；(2) 设计一种基于购买意图的步骤-产品对齐策略来桥接语义鸿沟；(3) 构建大规模基准并系统评估 20+ 模型的能力。
切入角度：作者观察到产品的"购买意图"（如"PersonX wants to buy this because they want to prepare hot beverages"）天然地连接了产品属性和用户动作，因此将意图作为中间语义层进行间接匹配，绕过直接的步骤-产品匹配困难。

方法详解¶

整体框架¶

将电商脚本规划分解为三个顺序判别子任务，构建 generate-then-discriminate 范式。数据构建流程为：用户购买评论 → GPT-4o-mini 推断目标 → GPT-4o-mini 生成脚本 → 判断步骤购买必要性 → 意图对齐选产品 → AMT 人工标注。

关键设计¶

三子任务分解：
- 功能：将开放式脚本规划任务转化为三个可评估的二分类任务
- 核心思路：Task 1 脚本验证（输入目标+脚本，判断脚本是否可行）→ Task 2 步骤-产品判别（输入步骤+产品，判断产品是否匹配该步骤）→ Task 3 整体验证（输入完整脚本+所有步骤产品，判断是否整体协调）
- 设计动机：直接评估生成质量困难，判别式任务使评估标准化，且三个子任务可组合为完整的自动化购物助手流程
购买意图挖掘与对齐：
- 功能：用购买意图作为桥梁连接动作步骤与产品
- 核心思路：(a) 用 GPT-4o-mini 从产品元数据推断 10 个购买意图（如"PersonX wants to buy this because..."），总计 2400 万条意图，专家验证通过率 98.5%；(b) 对每个需产品的步骤，先用 LLM 生成关键词过滤产品池；(c) 用 SentenceBERT 计算步骤与候选产品意图的平均嵌入相似度；(d) 选 top-3 产品（阈值 \(\tau=0.45\)）
- 设计动机：先导实验表明直接用步骤作搜索查询，68% 返回结果不佳且产品雷同。意图表达的是用户"想用产品做什么"，语义上天然接近动作步骤
大规模数据集构建：
- 功能：构建可扩展的产品赋能脚本知识库
- 核心思路：基于 Amazon Review 数据（240 万产品、370 万评论），使用 5-shot 提示引导 GPT-4o-mini 从评论推断用户目标 → 生成脚本 → 挖掘意图。最终得到 605,229 个脚本（平均 9.8 步），专家接受率 94.0%。每个子任务随机采样 5000 条由 56 名 AMT 工人标注（5 票多数决），IAA = 0.53 Fleiss Kappa
- 设计动机：需要真实场景数据而非合成数据，因此从真实购买评论出发推断目标

训练策略¶

微调模型使用标准二分类交叉熵损失，LLM 使用 LoRA 微调。对 PTLM（RoBERTa、DeBERTa 等）使用零样本推断。

实验关键数据¶

主实验 — 零样本 LLM 性能¶

模型	脚本验证 Acc	产品判别 Acc	整体验证 Acc
Random	50.00	50.00	50.00
Majority	60.98	57.67	56.46
Llama-3.1-8B	71.45	65.74	61.63
Llama-3.1-70B	72.65	66.15	62.50
Llama-3.1-405B	75.26	68.16	65.66
GPT-4o (5-shot)	77.92	73.90	72.85
VERA-xxl 11B (PTLM)	55.77	54.49	54.90

消融实验 — 微调 + 意图知识注入¶

方法	Backbone	脚本验证 Acc	产品判别 Acc	整体验证 Acc
Zero-shot	Llama-3.1-8B	71.45	65.74	61.63
Fine-tuned (EcomScript)	Llama-3.1-8B	83.86	77.70	75.88
+ FolkScope+MIND 意图数据	Llama-3.1-8B	84.65	78.60	76.35
Fine-tuned (best PTLM)	VERA-xxl 11B	69.42	57.02	67.15
Fine-tuned (best overall)	Mistral-7B	85.72	75.63	73.18

关键发现¶

所有 LLM 表现不佳：即使最强的 GPT-4o (5-shot) 在产品判别和整体验证上也仅约 73%，远未达实用水平
微调大幅提升但有天花板：Llama-3.1-8B 微调后脚本验证从 71.45% 升至 83.86%（+12.4pp），但产品判别仍仅 77.7%
意图知识注入有效：加入外部购买意图数据进一步提升 1-2pp，验证了意图作为语义桥梁的价值
PTLM 远不如 LLM：VERA-xxl 11B 零样本 Acc 仅约 55%，微调后也仅约 67%，说明任务需要强推理能力
任务难度递增：脚本验证 > 产品判别 > 整体验证，整体验证最难（需跨步骤协调推理）

亮点与洞察¶

任务定义新颖：首次将电商购物助手的工作流形式化为三个可评估子任务，为 LLM 购物助手能力评估提供了清晰框架。这种"将生成任务拆解为判别子任务"的思路可迁移到其他评估场景
意图桥接策略：用购买意图而非产品特征进行步骤-产品匹配，优雅解决了语义鸿沟问题。先导实验中 68% 直接搜索失败的数据为这一设计提供了强有力的动机
数据规模与质量：60.5 万脚本、240 万产品、2400 万意图的大规模数据集，专家验证通过率 96.3%，在数据质量控制上下了大功夫

局限性¶

产品池仅来自 Amazon，跨平台（特别是中文电商）的泛化性未知
三个子任务均为二分类，未考虑产品排序质量或脚本步骤多样性评估
脚本最长 10 步，复杂场景（如家装、旅行规划）可能需更长脚本
意图挖掘依赖 GPT-4o-mini，可能引入特定偏见
IAA 为 0.53 (Fleiss Kappa)，属中等一致性，部分任务主观性较强

评分¶

新颖性: 8/10 — 电商脚本规划任务定义新颖，购买意图桥接策略巧妙
技术深度: 6/10 — 方法主要基于 LLM 提示和 SentenceBERT 相似度，技术复杂度不高
实验充分度: 8/10 — 20+ 模型评估，涵盖零样本/微调/API 三种范式，消融充分
清晰度: 8/10 — 任务定义清楚，数据构建流程图示化，逻辑连贯
总分: 7.5/10