Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback¶
会议: ACL 2025
arXiv: 2507.16007
代码: https://github.com/google-deepmind/igen
领域: LLM评估
关键词: 写作反馈, 创意写作, LLM评估, 故事生成, 人工评估
一句话总结¶
本文定义了"LLM 生成写作反馈"这一新任务,构建了包含 1,300 个带有受控写作缺陷的故事数据集(StoryFeedback,共 83K 对故事-反馈),通过自动指标和人工评估系统地测试了 8 个 LLM 在反馈的具体性、正确性、问题检测和正面评价适当性四个维度的表现,发现模型能给出具体且基本正确的反馈,但常常抓不住最大的写作问题,且不善于判断何时该给正面评价。
研究背景与动机¶
领域现状:LLM 在创意写作辅助中的角色日益受关注,包括文本续写、改写等。但"生成写作反馈"这一任务——即不直接生成内容,而是评价和指导人类作者——几乎没有系统研究。现有 NLP 反馈研究主要集中在学术论文同行评审或学术写作领域,创意写作反馈缺乏数据集和评估框架。
现有痛点:(1) 缺乏专门的创意写作反馈数据集和评估基准;(2) 生成反馈不同于生成内容——需要识别写作问题并以建设性方式表达,是一种独特的能力组合;(3) 不清楚现有 LLM 的"开箱即用"反馈能力边界在哪里——具体哪些维度强、哪些弱。
核心矛盾:好的写作反馈需要同时满足多个相互关联的要求:具体(不是泛泛而谈)、正确(建议能真的改善文章)、切中要害(识别最大问题而非小问题)、知道何时鼓励(不该对好文章硬挑毛病,也不该对有问题的文章只说好话)。现有模型在这些维度上的表现组合是未知的。
本文目标 (1) 如何构造一个可以大规模自动评估的写作反馈数据集?(2) LLM 在反馈的四个关键维度上表现如何?(3) 不同模型架构、提示方式和错误类型如何影响反馈质量?
切入角度:作者设计了一个巧妙的"受控缺陷注入"方案——从高质量种子故事出发,通过三种方式(回译、句子交换、句子删除)引入已知的写作问题,这样就能精确评估模型是否检测到了这些已知问题。
核心 idea:通过在好故事中注入已知缺陷来构建可控评估集,系统测试 LLM 写作反馈的四个维度——具体性、正确性、问题检测、正面评价适当性。
方法详解¶
整体框架¶
流程分三步:(1) 从公开数据集收集 326 个种子短故事,用三种自动腐蚀方法生成约 1,300 个带已知缺陷的故事;(2) 用 8 个 LLM × 4 种提示方式 × 2 种 few-shot 设置生成反馈,共获得 83,456 对故事-反馈;(3) 用自动指标("perfect-as-is"精确率、trigram 重复率)和人工评估(7 个维度的多级打分)分析反馈质量。
关键设计¶
-
受控故事腐蚀(Story Corruption):
- 功能:将高质量故事系统地注入已知类型的写作问题
- 核心思路:三种方案——backtranslate(英→德→英循环 10 次,引入语法/措辞/指代问题);swap(交换两个相邻句子,破坏连贯性/事件顺序);delete(随机删除一个句子,造成信息缺失/上下文断裂)。加上原始故事共 4 类,每类 326 篇
- 设计动机:通过已知的腐蚀类型,可以精确衡量模型是否检测到了引入的特定问题(relevance 指标),而非依赖主观判断
-
多维度人工评估框架(7-Dimension Human Evaluation):
- 功能:定义 7 个评估维度,设计分支问卷路径,每篇反馈 3 人标注
- 核心思路:评估维度包括——sanity-check(是否是合格反馈)、feedback-type(正面/建议/混合)、perfect-agree(说"完美"是否正确)、correctness(建议是否能改善文章)、error-detection(是否识别了最大问题)、specificity(是否针对特定故事而非泛泛而谈)、relevance(建议是否能修复已知腐蚀)。标注流程是条件分支式的——先判断反馈类型,再根据类型进入不同的评估路径
- 设计动机:不同维度考察反馈的不同能力层面,分层评估能精确定位模型的优势和短板
-
多样化提示策略(Prompt Variations):
- 功能:设计 4 种提示方式测试模型对指令的敏感性
- 核心思路:BL Full(列表+写作问题分类指引)、BL Only(仅列表无分类)、1-Sent(一句话反馈)、SpotProb(挑战式:找出唯一问题并描述)。每种再分 zero-shot 和 two-shot 版本
- 设计动机:模拟非专家用户在实际使用中可能给出的不同详细程度的指令
损失函数 / 训练策略¶
本文不涉及模型训练,是纯评估工作。所有模型均使用开箱即用的 instruction-tuned 版本。
实验关键数据¶
主实验(人工评估,按模型)¶
| 模型 | 正确性 | 问题检测 | 具体性 | 相关性 |
|---|---|---|---|---|
| GPT 4 | 0.834 | 0.757 | 0.942 | 0.593 |
| Gemini Pro | 0.792 | 0.703 | 0.953 | 0.497 |
| Gemini Flash | 0.763 | 0.687 | 0.917 | 0.481 |
| GPT 3.5 | 0.766 | 0.663 | 0.862 | 0.438 |
| Gemma 27B | 0.755 | 0.614 | 0.902 | 0.455 |
| Gemma 9B | 0.734 | 0.609 | 0.904 | 0.462 |
| Bloomz 176B | 0.316 | 0.254 | 0.460 | 0.243 |
| Bloomz 7B | 0.292 | 0.219 | 0.288 | 0.226 |
消融实验(按腐蚀类型的人工评估)¶
| 腐蚀类型 | 正确性 | 问题检测 | 相关性 |
|---|---|---|---|
| backtranslate | 0.770 | 0.712 | 0.577 |
| swap | 0.691 | 0.621 | 0.378 |
| delete | 0.666 | 0.545 | 0.367 |
| original | 0.630 | 0.485 | - |
关键发现¶
- 具体性强但抓不住重点:所有主流模型在 specificity 上得分很高(>0.9),说明反馈是针对特定故事的而非泛泛之谈。但 error-detection 普遍偏低(最好的 GPT-4 也仅 0.757),模型倾向于评论小问题而忽略最大的写作缺陷
- backtranslate 类错误最易检测:语法/措辞问题比连贯性/信息缺失更容易被发现,delete 和 swap 引入的结构性问题模型识别困难(relevance 仅 0.37-0.38 vs backtranslate 的 0.58)
- 模型不善判断何时该说"完美":当模型说故事"完美无需修改"时,人工评估的 perfect-agree 很低(GPT-4 仅 0.573),说明模型经常对有问题的故事误判为"完美"
- BL Full 提示最有效:给模型提供写作问题分类指引显著提升 error-detection(0.719 vs SpotProb 的 0.437)和 relevance(0.513 vs 0.414)
- 闭源模型优势明显:GPT-4 和 Gemini Pro 在多数维度领先,Bloomz 系列大幅落后
- 模型规模效应有限:同系列大小版本差异不大(Gemma 9B vs 27B 差距很小)
亮点与洞察¶
- 受控腐蚀评估范式很巧妙:通过注入已知缺陷(而非依赖自然存在的写作问题),实现了大规模可量化评估。这个范式可迁移到其他评估任务——如代码审查、学术写作反馈等
- "抓大放小"的失败模式的发现有实际意义:模型能给出正确且具体的反馈,但总是评论小问题而忽略根本缺陷——这对将 LLM 作为写作辅导工具的场景是核心警示
- 7 维度分层评估框架设计精细且可复用,尤其是条件分支式问卷避免了无意义问题,提高了标注效率和质量
局限与展望¶
- 仅限短故事(≤5 句),长篇叙事中的反馈能力未测试,而长篇写作才是更实际的需求
- 腐蚀方式仅三种,且都是较表面的文本操作,不涉及情节逻辑、人物弧线等深层写作问题
- 缺乏反馈的实际效用验证——人类作者拿到这些反馈后是否真的能改善写作?
- 仅评估单轮反馈,实际写作辅导是多轮迭代过程
- "perfect-as-is"的回复率在模型间差异巨大(Gemma <5% vs GPT-3.5 43%),使得 perfect-agree 指标的模型间可比性受限
- 数据集偏英文,跨语言写作反馈能力未触及
相关工作与启发¶
- vs 学术同行评审生成(Chamoun et al., 2024): 同行评审关注论证逻辑和实验设计,故事反馈关注叙事连贯性和语言质量——领域不同但评估框架可互鉴
- vs 文本修订检测(Dou et al., 2022): 修订检测聚焦于分类写作错误类型,本文要求模型不仅识别问题还要建设性地表达——更接近"教练"而非"裁判"角色
- vs 直接文本改写(Shu et al., 2024): 改写直接生成修正后的文本,反馈则保留作者的编辑主权——两种模式各有优势,可能互补使用效果更好
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统化的创意写作反馈评估框架,受控腐蚀评估范式有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 8 模型 × 4 提示 × 4 腐蚀类型 × 2 nshot,83K 数据对,自动+人工双评估
- 写作质量: ⭐⭐⭐⭐ 结构清晰系统,图表丰富,维度定义明确
- 价值: ⭐⭐⭐⭐ 为 LLM 写作辅助提供了首个系统性基准,失败模式的发现有实际指导意义
相关论文¶
- [ACL 2025] EvoWiki: Evaluating LLMs on Evolving Knowledge
- [ACL 2025] HomeBench: Evaluating LLMs in Smart Homes with Valid and Invalid Instructions Across Single and Multiple Devices
- [ACL 2025] GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning
- [ACL 2025] From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions
- [NeurIPS 2025] On Evaluating LLM Alignment by Evaluating LLMs as Judges