Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback¶

会议: ACL 2025
arXiv: 2507.16007
代码: 无 (Google DeepMind)
领域: 文本生成
关键词: 写作反馈, 创意写作, LLM评估, 故事生成, 错误检测

一句话总结¶

探索 LLM 能否为创意写作者提供有意义的写作反馈——构建包含 1300 个故意引入写作问题的故事测试集，评估常用 LLM 的写作反馈生成能力，发现模型虽能提供具体且多数准确的反馈，但常错过最重要的写作问题且不会恰当地在批评和鼓励之间切换。

领域现状：LLM 在文本生成上表现出色，但作为"写作教练"提供反馈的能力尚未系统评估。写作反馈是创意写作教育中的核心环节。
现有痛点：(a) 缺乏用于评估写作反馈质量的标准化数据集和框架；(b) 不清楚 LLM 是能识别真正的写作问题还是只做表面评论；(c) 写作反馈需要同时具备批判性（指出问题）和支持性（鼓励优点）——LLM 是否能恰当平衡两者？
核心矛盾：好的写作反馈不只是找错——需要识别最重要的问题并提供建设性建议，同时肯定做得好的部分。这种多维度判断对 LLM 是挑战。
本文要解决什么？ 定义写作反馈生成任务、构建评估数据集和框架、系统评估 LLM 的反馈能力。
切入角度：用受控实验方法——将好故事故意"破坏"（引入特定写作问题），测试 LLM 能否检测到这些问题。
核心idea一句话：故意引入写作缺陷→测试LLM能否检测→发现能找问题但找不到最重要的。

(1) 构建受控测试集——从高质量故事出发，故意引入各类写作问题（情节不一致、角色平板、对话不自然等）；(2) 让多个 LLM 对这些故事生成写作反馈；(3) 用自动+人工评估框架评估反馈质量。

受控缺陷引入（Controlled Corruption）:
做什么：将好故事系统性地引入已知写作问题
核心思路：针对多种写作维度（情节连贯性、角色发展、对话真实性、描写质量等）设计特定的"破坏"操作——如删除关键情节转折点、使角色行为不一致、替换自然对话为僵硬陈述
设计动机：受控实验才能精确评估——知道"正确答案"是什么问题，才能判断 LLM 是否找对了
多维度反馈评估框架:
做什么：全面评估 LLM 反馈的质量
评估维度：(a) 准确性——反馈是否指出了真实存在的问题？ (b) 优先级——是否识别了最重要的问题？ (c) 建设性——是否提供了可操作的改进建议？ (d) 正面反馈——是否恰当地肯定了做得好的部分？ (e) 批判-鼓励平衡——是否在两者之间恰当切换？
设计动机：写作反馈不是简单的对错判断，需要多维度评估
人工评估协议:
做什么：请人类评估者对 LLM 反馈进行细粒度评估
核心思路：标注者判断每条反馈是否准确、对应哪个引入的缺陷、是否有遗漏的重要问题