Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback¶

会议: ACL 2025
arXiv: 2507.16007
代码: https://github.com/google-deepmind/igen
领域: LLM评估
关键词: 写作反馈, 创意写作, LLM评估, 故事生成, 人工评估

一句话总结¶

本文定义了"LLM 生成写作反馈"这一新任务，构建了包含 1,300 个带有受控写作缺陷的故事数据集（StoryFeedback，共 83K 对故事-反馈），通过自动指标和人工评估系统地测试了 8 个 LLM 在反馈的具体性、正确性、问题检测和正面评价适当性四个维度的表现，发现模型能给出具体且基本正确的反馈，但常常抓不住最大的写作问题，且不善于判断何时该给正面评价。

研究背景与动机¶

领域现状：LLM 在创意写作辅助中的角色日益受关注，包括文本续写、改写等。但"生成写作反馈"这一任务——即不直接生成内容，而是评价和指导人类作者——几乎没有系统研究。现有 NLP 反馈研究主要集中在学术论文同行评审或学术写作领域，创意写作反馈缺乏数据集和评估框架。

现有痛点：(1) 缺乏专门的创意写作反馈数据集和评估基准；(2) 生成反馈不同于生成内容——需要识别写作问题并以建设性方式表达，是一种独特的能力组合；(3) 不清楚现有 LLM 的"开箱即用"反馈能力边界在哪里——具体哪些维度强、哪些弱。

核心矛盾：好的写作反馈需要同时满足多个相互关联的要求：具体（不是泛泛而谈）、正确（建议能真的改善文章）、切中要害（识别最大问题而非小问题）、知道何时鼓励（不该对好文章硬挑毛病，也不该对有问题的文章只说好话）。现有模型在这些维度上的表现组合是未知的。

本文目标 (1) 如何构造一个可以大规模自动评估的写作反馈数据集？(2) LLM 在反馈的四个关键维度上表现如何？(3) 不同模型架构、提示方式和错误类型如何影响反馈质量？

切入角度：作者设计了一个巧妙的"受控缺陷注入"方案——从高质量种子故事出发，通过三种方式（回译、句子交换、句子删除）引入已知的写作问题，这样就能精确评估模型是否检测到了这些已知问题。

核心 idea：通过在好故事中注入已知缺陷来构建可控评估集，系统测试 LLM 写作反馈的四个维度——具体性、正确性、问题检测、正面评价适当性。

方法详解¶

整体框架¶

流程分三步：(1) 从公开数据集收集 326 个种子短故事，用三种自动腐蚀方法生成约 1,300 个带已知缺陷的故事；(2) 用 8 个 LLM × 4 种提示方式 × 2 种 few-shot 设置生成反馈，共获得 83,456 对故事-反馈；(3) 用自动指标（"perfect-as-is"精确率、trigram 重复率）和人工评估（7 个维度的多级打分）分析反馈质量。

关键设计¶

受控故事腐蚀（Story Corruption）:
- 功能：将高质量故事系统地注入已知类型的写作问题
- 核心思路：三种方案——backtranslate（英→德→英循环 10 次，引入语法/措辞/指代问题）；swap（交换两个相邻句子，破坏连贯性/事件顺序）；delete（随机删除一个句子，造成信息缺失/上下文断裂）。加上原始故事共 4 类，每类 326 篇
- 设计动机：通过已知的腐蚀类型，可以精确衡量模型是否检测到了引入的特定问题（relevance 指标），而非依赖主观判断
多维度人工评估框架（7-Dimension Human Evaluation）:
- 功能：定义 7 个评估维度，设计分支问卷路径，每篇反馈 3 人标注
- 核心思路：评估维度包括——sanity-check（是否是合格反馈）、feedback-type（正面/建议/混合）、perfect-agree（说"完美"是否正确）、correctness（建议是否能改善文章）、error-detection（是否识别了最大问题）、specificity（是否针对特定故事而非泛泛而谈）、relevance（建议是否能修复已知腐蚀）。标注流程是条件分支式的——先判断反馈类型，再根据类型进入不同的评估路径
- 设计动机：不同维度考察反馈的不同能力层面，分层评估能精确定位模型的优势和短板
多样化提示策略（Prompt Variations）:
- 功能：设计 4 种提示方式测试模型对指令的敏感性
- 核心思路：BL Full（列表+写作问题分类指引）、BL Only（仅列表无分类）、1-Sent（一句话反馈）、SpotProb（挑战式：找出唯一问题并描述）。每种再分 zero-shot 和 two-shot 版本
- 设计动机：模拟非专家用户在实际使用中可能给出的不同详细程度的指令

损失函数 / 训练策略¶

本文不涉及模型训练，是纯评估工作。所有模型均使用开箱即用的 instruction-tuned 版本。

实验关键数据¶

主实验（人工评估，按模型）¶

模型	正确性	问题检测	具体性	相关性
GPT 4	0.834	0.757	0.942	0.593
Gemini Pro	0.792	0.703	0.953	0.497
Gemini Flash	0.763	0.687	0.917	0.481
GPT 3.5	0.766	0.663	0.862	0.438
Gemma 27B	0.755	0.614	0.902	0.455
Gemma 9B	0.734	0.609	0.904	0.462
Bloomz 176B	0.316	0.254	0.460	0.243
Bloomz 7B	0.292	0.219	0.288	0.226

消融实验（按腐蚀类型的人工评估）¶

腐蚀类型	正确性	问题检测	相关性
backtranslate	0.770	0.712	0.577
swap	0.691	0.621	0.378
delete	0.666	0.545	0.367
original	0.630	0.485	-

关键发现¶

具体性强但抓不住重点：所有主流模型在 specificity 上得分很高（>0.9），说明反馈是针对特定故事的而非泛泛之谈。但 error-detection 普遍偏低（最好的 GPT-4 也仅 0.757），模型倾向于评论小问题而忽略最大的写作缺陷
backtranslate 类错误最易检测：语法/措辞问题比连贯性/信息缺失更容易被发现，delete 和 swap 引入的结构性问题模型识别困难（relevance 仅 0.37-0.38 vs backtranslate 的 0.58）
模型不善判断何时该说"完美"：当模型说故事"完美无需修改"时，人工评估的 perfect-agree 很低（GPT-4 仅 0.573），说明模型经常对有问题的故事误判为"完美"
BL Full 提示最有效：给模型提供写作问题分类指引显著提升 error-detection（0.719 vs SpotProb 的 0.437）和 relevance（0.513 vs 0.414）
闭源模型优势明显：GPT-4 和 Gemini Pro 在多数维度领先，Bloomz 系列大幅落后
模型规模效应有限：同系列大小版本差异不大（Gemma 9B vs 27B 差距很小）

亮点与洞察¶

受控腐蚀评估范式很巧妙：通过注入已知缺陷（而非依赖自然存在的写作问题），实现了大规模可量化评估。这个范式可迁移到其他评估任务——如代码审查、学术写作反馈等
"抓大放小"的失败模式的发现有实际意义：模型能给出正确且具体的反馈，但总是评论小问题而忽略根本缺陷——这对将 LLM 作为写作辅导工具的场景是核心警示
7 维度分层评估框架设计精细且可复用，尤其是条件分支式问卷避免了无意义问题，提高了标注效率和质量

局限与展望¶

仅限短故事（≤5 句），长篇叙事中的反馈能力未测试，而长篇写作才是更实际的需求
腐蚀方式仅三种，且都是较表面的文本操作，不涉及情节逻辑、人物弧线等深层写作问题
缺乏反馈的实际效用验证——人类作者拿到这些反馈后是否真的能改善写作？
仅评估单轮反馈，实际写作辅导是多轮迭代过程
"perfect-as-is"的回复率在模型间差异巨大（Gemma <5% vs GPT-3.5 43%），使得 perfect-agree 指标的模型间可比性受限
数据集偏英文，跨语言写作反馈能力未触及

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统化的创意写作反馈评估框架，受控腐蚀评估范式有创意
实验充分度: ⭐⭐⭐⭐⭐ 8 模型 × 4 提示 × 4 腐蚀类型 × 2 nshot，83K 数据对，自动+人工双评估
写作质量: ⭐⭐⭐⭐ 结构清晰系统，图表丰富，维度定义明确
价值: ⭐⭐⭐⭐ 为 LLM 写作辅助提供了首个系统性基准，失败模式的发现有实际指导意义