DREsS: Dataset for Rubric-based Essay Scoring on EFL Writing¶

会议: ACL 2025
arXiv: 2402.16733
领域: 自动作文评分 / 教育NLP
关键词: 自动作文评分, EFL写作教育, 评分量规, 数据增强, 基准数据集

一句话总结¶

发布 DREsS——一个面向 EFL（英语作为外语）写作教育的大规模标准化评分量规数据集（48.9K 样本），并提出基于文本损坏的 CASE 数据增强策略，将基线性能提升 45.44%。

自动作文评分（AES）是英语写作教育中的重要工具，可为学生和教师提供实时的作文评分反馈。然而，现有 AES 研究面临两个核心困境：

数据集与实际教学场景脱节：以往 AES 模型使用的训练数据（如 ASAP 数据集）来自美国本土学生，其写作特征、常见错误类型和评分标准与 EFL（英语作为外语）学生截然不同。EFL 学生面临的语法、用词和逻辑组织挑战与母语学生差异很大。
单一整体评分的局限性：大多数现有数据集和模型仅提供一个整体评分（holistic score），无法反映写作在不同维度（如内容、组织、语法、词汇）上的具体表现。在实际教学中，教师通常基于详细的评分量规（rubric）进行多维度打分。

因此，亟需一个面向 EFL 场景、支持多维度评分量规的大规模标准化 AES 数据集。

DREsS 数据集由三个子数据集组成，共 48.9K 个样本：

1. DREsS_New（2.3K 篇） - 来源：真实课堂环境中 EFL 本科生撰写的英语作文 - 标注：由英语教育专家根据评分量规打分 - 特点：反映 EFL 学生真实的写作水平和错误模式 - 多维度评分：按照内容、组织、语法、词汇等多个维度分别打分

2. DREsS_Std.（标准化子集） - 来源：对现有已发布的基于评分量规的作文评分数据集进行标准化整理 - 目的：统一不同来源数据的格式和评分标准，便于跨数据集训练和评估 - 解决数据碎片化问题：将散落在不同研究中的评分量规数据集纳入统一框架

3. DREsS_CASE（40.1K 篇合成样本） - 来源：通过 CASE（Corruption-based Augmentation Strategy for Essays）策略生成 - 核心思想：对高质量作文进行有控制的"损坏"操作，生成不同质量等级的合成作文

CASE 数据增强策略

CASE 是本文的核心方法贡献，其基本思路是：既然收集和标注大量真实 EFL 作文成本极高，可以反向思考——从高分作文出发，通过引入不同类型和程度的语言错误，自动生成低分作文。

具体的损坏操作可能包括： - 语法损坏：引入主谓不一致、时态错误、冠词误用等 EFL 学生常见语法错误 - 词汇损坏：替换为不恰当的近义词、降低词汇复杂度 - 组织损坏：打乱句子顺序、削弱段落间的逻辑连接 - 内容损坏：删除关键论点、引入不相关内容

通过控制损坏的类型和程度，可以系统性地生成覆盖各评分等级的合成样本，大幅扩充训练数据规模。