跳转至

Decision-Level Ordinal Modeling for Multimodal Essay Scoring with Large Language Models

日期: 2026-03-16
arXiv: 2603.14891
领域: 教育 NLP / 自动作文评分
关键词: automated essay scoring, ordinal modeling, decision-level fusion, gated fusion, QWK

一句话总结

提出 DLOM:把 LLM 作文评分从“生成文本再解析分数”改为“在分数 token 上直接做决策”,并进一步给出多模态门控融合(DLOM-GF)与距离感知正则(DLOM-DA),在 EssayJudge 与 ASAP/ASAP++ 上稳定优于生成式基线。

背景与问题

  • 生成式 AES 简单但决策隐式,容易受 prompt/解码/tokenization 影响
  • 作文评分是天然序数任务:相邻分数错误不应等价于远距离错误
  • 多模态评分中视觉信息贡献不稳定,固定融合策略不鲁棒

方法

1. DLOM:决策级序数建模

  • 直接复用 LM head,不额外加分类头
  • 从预定义分数 token 集 \(\mathcal S\) 抽取 logits:
\[ \mathbf z=\text{Logits}(e,v)_L[\mathcal S],\quad \hat y=\arg\max_k z_k \]
  • 优点:避免“先生成再解析”误差链,决策可解释

2. DLOM-GF:多模态门控融合

  • 文本分支 logits:\(\mathbf z^{(t)}\)
  • 多模态分支 logits:\(\mathbf z^{(m)}\)
  • 学习样本级权重 \(\alpha\)
\[ \mathbf z=\alpha\mathbf z^{(m)}+(1-\alpha)\mathbf z^{(t)} \]

3. DLOM-DA:距离感知正则

适用于文本场景,通过分布期望分数约束序数距离:

\[ \mathcal L=\mathcal L_{CE}+\lambda\mathcal L_{dist} \]

其中 \(\mathcal L_{dist}\) 对预测期望分数与真实分数的偏差做 SmoothL1 约束。

实验数据

EssayJudge(多模态)

方法 平均 QWK
SFT-Gen 0.492
DLOM 0.504
DLOM-GF 0.516

ASAP/ASAP++(文本)

方法 trait QWK prompt QWK
ArTS 0.689 0.717
SFT-Gen 0.646 0.676
DLOM 0.685 0.713
DLOM-DA 0.697 0.720

关键消融

  • 在生成框架上直接叠序数 loss 反而退化(说明“位置错了”)
  • 决策级建模和决策级融合均有稳定增益

亮点

  • 把“语义理解”和“评分决策”解耦,问题建模更贴近 AES 本质
  • 复用 LM head,几乎零结构改造
  • 门控融合可解释性强,可分析不同 trait 的模态依赖

局限性

  • 主要验证在 Qwen 系列,跨架构泛化需加强
  • 多模态数据规模不大,置信区间仍值得报告
  • 提升幅度中等,但 QWK 指标下仍具有实际意义

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐(方法论价值高,场景相对垂直)