TRATES: Trait-Specific Rubric-Assisted Cross-Prompt Essay Scoring¶
会议: ACL2025 / arXiv: 2505.14577 / 代码: GitHub / 领域: llm_nlp / 关键词: 自动作文评分, 跨提示泛化, 特质评分, 评分标准, LLM特征生成
一句话总结¶
提出 TRATES 框架,重新定义 LLM 在自动作文评分中的角色——从直接评分者转变为特质特征生成器与提取器,通过 LLM 将评分标准(rubric)自动转化为评估问题(子特质),结合通用写作质量特征和提示特定特征训练回归模型,在 ASAP 数据集 8 个特质上全部达到 SOTA,且首次在 ELLIPSE 数据集上建立跨提示特质评分基线。
研究背景与动机¶
- AES 研究长期偏重整体评分:自 Page(1966)以来,整体评分(holistic scoring)一直是主流,特质评分(trait scoring)因需评估多维度(组织、词汇、句子流畅性等)而研究不足,但特质评分能提供更有针对性的反馈帮助学生改进。
- 跨提示(cross-prompt)设置更贴近现实:真实场景中模型必须泛化到未见过的写作任务,不同提示的写作风格、题目和结构差异巨大,这比单提示评分更具挑战。
- LLM 直接评分效果不佳:现有研究尝试让 GPT-4/GPT-3.5 直接给分,但零样本评分甚至不如简单 XGBoost 基线,存在评分不一致和幻觉问题。
- LLM 对话式策略仍低于基线:多轮对话评分(如 impersonation、CoT)虽有改善但仍落后于传统特征工程方法,说明直接评分范式本身存在瓶颈。
- 现有跨提示方法缺乏评分标准利用:ProTACT 和 Li & Ng 等 SOTA 方法依赖手工特征或神经架构,但未将评分标准(rubric)纳入特征设计,错失了关键的领域先验信息。
- 特质特征的自动生成是空白:不同特质需要不同的评估视角,但手工为每个特质设计特征耗时且不可扩展,需要一种自动化且通用的特征生成方法。
方法详解¶
整体框架:三阶段混合评分流水线¶
- 做什么:构建一个统一框架,对任意写作特质进行跨提示自动评分。
- 为什么:将 LLM 的强文本分析能力与传统特征工程的稳定性结合,弥补 LLM 直接评分不可靠的缺陷。
- 怎么做:(1) 用 LLM 从评分标准生成特质特定评估问题;(2) 用同一 LLM 对每篇作文回答这些问题提取特质特征;(3) 将特质特征、提示特定特征和通用写作质量特征拼接,训练浅层神经网络回归模型预测分数。
关键设计 1:基于评分标准的特征生成(Rubric-based Feature Generation)¶
- 做什么:将评分标准(rubric)自动转化为一组可回答的评估问题(assessment questions),每个问题对应一个子特质。
- 为什么:直接让 LLM 评估整个特质太宽泛且不稳定;将标准拆解为细粒度子问题,可实现更精确、更可解释的评估,且同一模板适用于任何特质。
- 怎么做:向 LLM 提供特质名称和评分标准文本,用统一的 prompt 模板生成一组 high/medium/low 等级的评估问题。例如"组织"特质可能生成"文章各段落之间的逻辑连接强度如何?"等问题。不同 LLM 生成的特征数量不同:Gemma 平均 8.6 个/特质,Llama 平均 20 个/特质。
关键设计 2:特质特征提取与多源特征融合¶
- 做什么:用 LLM 对每篇作文逐一回答生成的问题,将回答(high/medium/low→3/2/1)数值化后与其他特征融合。
- 为什么:单靠 LLM 特征(LLM-F)虽有正向预测力但不足以达到 SOTA,需要补充提示特定特征(作文类型、预期长度、年级等)和通用写作质量特征(长度、可读性、文本变化、文本复杂度、情感)。
- 怎么做:提示特定特征(4 维)从数据集元数据提取;通用特征(5 类 81 维)覆盖长度/可读性/POS 变化/句法复杂度/情感;所有特征拼接后送入浅层神经网络回归模型,使用 leave-one-prompt-out 交叉验证训练。特征归一化采用训练集 min-max 值,避免对测试集分布的假设。
关键设计 3:跨提示分数对齐(Score Scaling)¶
- 做什么:将不同提示不同评分范围的分数映射到统一尺度。
- 为什么:不同年级和作文类型的评分标准范围不同(如 0-6 vs 0-4),简单 min-max 归一化忽略了年级差异——8 年级满分和 12 年级满分的质量标准完全不同。
- 怎么做:提出基于年级的增量缩放方法:以最高年级为锚点,低年级的最大分数逐级递减一个等级,确保不同年级的分数在统一尺度上可比较。预测输出再反向缩放回原始范围以进行公平评估。
实验关键数据¶
表1:ASAP 数据集上 QWK 性能(跨8个特质)¶
| 模型 | ORG | WC | SF | PA | NAR | LNG | CNV | CNT | Avg |
|---|---|---|---|---|---|---|---|---|---|
| ProTACT (SOTA) | 0.518 | 0.599 | 0.585 | 0.619 | 0.639 | 0.596 | 0.450 | 0.596 | 0.575 |
| Li & Ng (SOTA) | 0.478 | 0.459 | 0.452 | 0.617 | 0.637 | 0.556 | 0.439 | 0.592 | 0.529 |
| LLM-D (Gemma零样本) | 0.345 | 0.375 | 0.390 | 0.337 | 0.382 | 0.337 | 0.263 | 0.326 | 0.344 |
| LLM-F (仅LLM特征, Gemma) | 0.329 | 0.546 | 0.456 | 0.533 | 0.525 | 0.412 | 0.429 | 0.546 | 0.472 |
| TRATES (Starling) | 0.518 | 0.593 | 0.612 | 0.624 | 0.668 | 0.608 | 0.501 | 0.636 | 0.595 |
| TRATES (Gemma) | 0.547 | 0.622 | 0.612 | 0.599 | 0.600 | 0.521 | 0.556 | 0.632 | 0.586 |
关键发现: - TRATES 在全部 8 个特质上建立新 SOTA,Starling 版本在 6/8 特质超越之前 SOTA,Gemma 版本在 5/8 超越。 - LLM 直接评分(LLM-D)平均比 LLM 特征模型(LLM-F)低 9 个点,验证了 LLM 不适合直接评分但适合做特征提取器。 - Gemma 生成最少但最精准的特征(平均 8.6 个),在 LLM-F 实验中表现最好;但在完整 TRATES 中 Starling 更优,说明其特征与通用特征互补性更强。
表2:消融实验——排除单一特征类别后 QWK 下降值¶
| 特征类别 | 平均大小 | ORG | CNT | AVG |
|---|---|---|---|---|
| 特质特定特征 | 18.2 | 2.23 | 8.35 | 7.60 |
| 提示特定特征 | 4 | 4.57 | 5.28 | 3.14 |
| 长度特征 | 16 | 3.39 | 3.42 | 2.29 |
| 可读性特征 | 12 | 0.97 | 2.58 | 1.68 |
| 文本复杂度 | 5 | 1.17 | 2.47 | 1.79 |
| 文本变化 | 43 | 7.27 | 0.10 | 1.67 |
| 情感特征 | 5 | 2.01 | 0.23 | 1.22 |
关键发现:特质特定特征是最重要的特征类别,排除后平均 QWK 下降 7.60 点,且是唯一在所有特质(除 ORG)上最显著的类别。这是唯一自动生成的特征,而其他所有类别都需要手工工程。
表3:ELLIPSE 数据集泛化实验(44个提示, Starling)¶
| 模型 | COH | SYN | VOC | GRM | CNV | PHR | Avg |
|---|---|---|---|---|---|---|---|
| ProTACT' | 0.33 | 0.35 | 0.42 | 0.29 | 0.36 | 0.36 | 0.35 |
| GP-F (通用+提示特征) | 0.45 | 0.49 | 0.48 | 0.40 | 0.50 | 0.46 | 0.46 |
| TRATES | 0.52 | 0.54 | 0.52 | 0.51 | 0.56 | 0.53 | 0.53 |
TRATES 在 ELLIPSE 上所有特质均最优,且领先 GP-F 至少 6.5 个点,证明框架泛化能力。
亮点¶
- 范式创新:将 LLM 从"直接评分者"转变为"特征生成器+提取器",避免了 LLM 零样本评分不稳定的问题,同时利用了其强大的文本理解能力。
- 通用且自适应:同一框架仅需更换评分标准即可适用于任意特质,LLM 自动生成对应子特质问题,无需人工特征设计。
- 可解释性强:生成的评估问题本身可作为给学生的反馈,指出具体哪些子维度需改进。
局限性 / 可改进方向¶
- 仅测试了 7-9B 小模型:未探索更大 LLM(如 70B+)是否能生成更高质量的特质特征。
- 未扩展到整体评分:整体评分的标准通常高度提示相关,TRATES 能否适用尚不确定。
- 分数缩放方法基于直觉:不同标准的分数映射是主观设定的,缺乏理论基础或自动化方法。
- 生成问题质量依赖 rubric 质量:低质量或模糊的评分标准会导致生成的评估问题不佳。
- 推理延迟由 LLM 主导:特质特征提取耗时 2-7 秒/篇/特质,虽可接受但在大规模评估中可能成为瓶颈。
与相关工作的对比¶
| 维度 | TRATES | ProTACT (Do et al. 2023) | Li & Ng (2024b) |
|---|---|---|---|
| LLM 使用方式 | 特征生成+提取 | 不使用 LLM | 不使用 LLM |
| 特质特定特征 | ✔ 自动生成 | ✘ | ✘ |
| 评分标准利用 | ✔ 核心组件 | ✘ | ✘ |
| ASAP 平均 QWK | 0.595 | 0.575 | 0.529 |
| ELLIPSE 测试 | ✔ (首次) | ✘ | ✘ |
| 可解释性 | 子特质问题可作反馈 | 低 | 中 |
- vs LLM 直接评分 (Yancey et al. 2023; Mansour et al. 2024):GPT-4 零样本/少样本评分不及 XGBoost 基线。TRATES 通过将 LLM 角色从评分者转为特征提取器,彻底绕过了直接评分的不稳定性,首次让 LLM 参与的 AES 系统超越 SOTA。
- vs Multi Trait Specialization (Lee et al. 2024):用多轮对话进行整体评分,但仍未超越基线。TRATES 聚焦特质评分且通过混合架构实现全面超越。
评分¶
| 维度 | 评分 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐⭐ |
| 实验充分度 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 实用价值 | ⭐⭐⭐⭐⭐ |