跳转至

TRATES: Trait-Specific Rubric-Assisted Cross-Prompt Essay Scoring

会议: ACL2025 / arXiv: 2505.14577 / 代码: GitHub / 领域: llm_nlp / 关键词: 自动作文评分, 跨提示泛化, 特质评分, 评分标准, LLM特征生成

一句话总结

提出 TRATES 框架,重新定义 LLM 在自动作文评分中的角色——从直接评分者转变为特质特征生成器与提取器,通过 LLM 将评分标准(rubric)自动转化为评估问题(子特质),结合通用写作质量特征和提示特定特征训练回归模型,在 ASAP 数据集 8 个特质上全部达到 SOTA,且首次在 ELLIPSE 数据集上建立跨提示特质评分基线。

研究背景与动机

  1. AES 研究长期偏重整体评分:自 Page(1966)以来,整体评分(holistic scoring)一直是主流,特质评分(trait scoring)因需评估多维度(组织、词汇、句子流畅性等)而研究不足,但特质评分能提供更有针对性的反馈帮助学生改进。
  2. 跨提示(cross-prompt)设置更贴近现实:真实场景中模型必须泛化到未见过的写作任务,不同提示的写作风格、题目和结构差异巨大,这比单提示评分更具挑战。
  3. LLM 直接评分效果不佳:现有研究尝试让 GPT-4/GPT-3.5 直接给分,但零样本评分甚至不如简单 XGBoost 基线,存在评分不一致和幻觉问题。
  4. LLM 对话式策略仍低于基线:多轮对话评分(如 impersonation、CoT)虽有改善但仍落后于传统特征工程方法,说明直接评分范式本身存在瓶颈。
  5. 现有跨提示方法缺乏评分标准利用:ProTACT 和 Li & Ng 等 SOTA 方法依赖手工特征或神经架构,但未将评分标准(rubric)纳入特征设计,错失了关键的领域先验信息。
  6. 特质特征的自动生成是空白:不同特质需要不同的评估视角,但手工为每个特质设计特征耗时且不可扩展,需要一种自动化且通用的特征生成方法。

方法详解

整体框架:三阶段混合评分流水线

  • 做什么:构建一个统一框架,对任意写作特质进行跨提示自动评分。
  • 为什么:将 LLM 的强文本分析能力与传统特征工程的稳定性结合,弥补 LLM 直接评分不可靠的缺陷。
  • 怎么做:(1) 用 LLM 从评分标准生成特质特定评估问题;(2) 用同一 LLM 对每篇作文回答这些问题提取特质特征;(3) 将特质特征、提示特定特征和通用写作质量特征拼接,训练浅层神经网络回归模型预测分数。

关键设计 1:基于评分标准的特征生成(Rubric-based Feature Generation)

  • 做什么:将评分标准(rubric)自动转化为一组可回答的评估问题(assessment questions),每个问题对应一个子特质。
  • 为什么:直接让 LLM 评估整个特质太宽泛且不稳定;将标准拆解为细粒度子问题,可实现更精确、更可解释的评估,且同一模板适用于任何特质。
  • 怎么做:向 LLM 提供特质名称和评分标准文本,用统一的 prompt 模板生成一组 high/medium/low 等级的评估问题。例如"组织"特质可能生成"文章各段落之间的逻辑连接强度如何?"等问题。不同 LLM 生成的特征数量不同:Gemma 平均 8.6 个/特质,Llama 平均 20 个/特质。

关键设计 2:特质特征提取与多源特征融合

  • 做什么:用 LLM 对每篇作文逐一回答生成的问题,将回答(high/medium/low→3/2/1)数值化后与其他特征融合。
  • 为什么:单靠 LLM 特征(LLM-F)虽有正向预测力但不足以达到 SOTA,需要补充提示特定特征(作文类型、预期长度、年级等)和通用写作质量特征(长度、可读性、文本变化、文本复杂度、情感)。
  • 怎么做:提示特定特征(4 维)从数据集元数据提取;通用特征(5 类 81 维)覆盖长度/可读性/POS 变化/句法复杂度/情感;所有特征拼接后送入浅层神经网络回归模型,使用 leave-one-prompt-out 交叉验证训练。特征归一化采用训练集 min-max 值,避免对测试集分布的假设。

关键设计 3:跨提示分数对齐(Score Scaling)

  • 做什么:将不同提示不同评分范围的分数映射到统一尺度。
  • 为什么:不同年级和作文类型的评分标准范围不同(如 0-6 vs 0-4),简单 min-max 归一化忽略了年级差异——8 年级满分和 12 年级满分的质量标准完全不同。
  • 怎么做:提出基于年级的增量缩放方法:以最高年级为锚点,低年级的最大分数逐级递减一个等级,确保不同年级的分数在统一尺度上可比较。预测输出再反向缩放回原始范围以进行公平评估。

实验关键数据

表1:ASAP 数据集上 QWK 性能(跨8个特质)

模型 ORG WC SF PA NAR LNG CNV CNT Avg
ProTACT (SOTA) 0.518 0.599 0.585 0.619 0.639 0.596 0.450 0.596 0.575
Li & Ng (SOTA) 0.478 0.459 0.452 0.617 0.637 0.556 0.439 0.592 0.529
LLM-D (Gemma零样本) 0.345 0.375 0.390 0.337 0.382 0.337 0.263 0.326 0.344
LLM-F (仅LLM特征, Gemma) 0.329 0.546 0.456 0.533 0.525 0.412 0.429 0.546 0.472
TRATES (Starling) 0.518 0.593 0.612 0.624 0.668 0.608 0.501 0.636 0.595
TRATES (Gemma) 0.547 0.622 0.612 0.599 0.600 0.521 0.556 0.632 0.586

关键发现: - TRATES 在全部 8 个特质上建立新 SOTA,Starling 版本在 6/8 特质超越之前 SOTA,Gemma 版本在 5/8 超越。 - LLM 直接评分(LLM-D)平均比 LLM 特征模型(LLM-F)低 9 个点,验证了 LLM 不适合直接评分但适合做特征提取器。 - Gemma 生成最少但最精准的特征(平均 8.6 个),在 LLM-F 实验中表现最好;但在完整 TRATES 中 Starling 更优,说明其特征与通用特征互补性更强。

表2:消融实验——排除单一特征类别后 QWK 下降值

特征类别 平均大小 ORG CNT AVG
特质特定特征 18.2 2.23 8.35 7.60
提示特定特征 4 4.57 5.28 3.14
长度特征 16 3.39 3.42 2.29
可读性特征 12 0.97 2.58 1.68
文本复杂度 5 1.17 2.47 1.79
文本变化 43 7.27 0.10 1.67
情感特征 5 2.01 0.23 1.22

关键发现:特质特定特征是最重要的特征类别,排除后平均 QWK 下降 7.60 点,且是唯一在所有特质(除 ORG)上最显著的类别。这是唯一自动生成的特征,而其他所有类别都需要手工工程。

表3:ELLIPSE 数据集泛化实验(44个提示, Starling)

模型 COH SYN VOC GRM CNV PHR Avg
ProTACT' 0.33 0.35 0.42 0.29 0.36 0.36 0.35
GP-F (通用+提示特征) 0.45 0.49 0.48 0.40 0.50 0.46 0.46
TRATES 0.52 0.54 0.52 0.51 0.56 0.53 0.53

TRATES 在 ELLIPSE 上所有特质均最优,且领先 GP-F 至少 6.5 个点,证明框架泛化能力。

亮点

  1. 范式创新:将 LLM 从"直接评分者"转变为"特征生成器+提取器",避免了 LLM 零样本评分不稳定的问题,同时利用了其强大的文本理解能力。
  2. 通用且自适应:同一框架仅需更换评分标准即可适用于任意特质,LLM 自动生成对应子特质问题,无需人工特征设计。
  3. 可解释性强:生成的评估问题本身可作为给学生的反馈,指出具体哪些子维度需改进。

局限性 / 可改进方向

  1. 仅测试了 7-9B 小模型:未探索更大 LLM(如 70B+)是否能生成更高质量的特质特征。
  2. 未扩展到整体评分:整体评分的标准通常高度提示相关,TRATES 能否适用尚不确定。
  3. 分数缩放方法基于直觉:不同标准的分数映射是主观设定的,缺乏理论基础或自动化方法。
  4. 生成问题质量依赖 rubric 质量:低质量或模糊的评分标准会导致生成的评估问题不佳。
  5. 推理延迟由 LLM 主导:特质特征提取耗时 2-7 秒/篇/特质,虽可接受但在大规模评估中可能成为瓶颈。

与相关工作的对比

维度 TRATES ProTACT (Do et al. 2023) Li & Ng (2024b)
LLM 使用方式 特征生成+提取 不使用 LLM 不使用 LLM
特质特定特征 ✔ 自动生成
评分标准利用 ✔ 核心组件
ASAP 平均 QWK 0.595 0.575 0.529
ELLIPSE 测试 ✔ (首次)
可解释性 子特质问题可作反馈
  • vs LLM 直接评分 (Yancey et al. 2023; Mansour et al. 2024):GPT-4 零样本/少样本评分不及 XGBoost 基线。TRATES 通过将 LLM 角色从评分者转为特征提取器,彻底绕过了直接评分的不稳定性,首次让 LLM 参与的 AES 系统超越 SOTA。
  • vs Multi Trait Specialization (Lee et al. 2024):用多轮对话进行整体评分,但仍未超越基线。TRATES 聚焦特质评分且通过混合架构实现全面超越。

评分

维度 评分
新颖性 ⭐⭐⭐⭐⭐
实验充分度 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐⭐