跳转至

Daily arXiv

Decision-Level Ordinal Modeling for Multim...

Decision-Level Ordinal Modeling for Multimodal Essay Scoring with Large Language Models¶

日期: 2026-03-16
arXiv: 2603.14891
领域: 教育 NLP / 自动作文评分
关键词: automated essay scoring, ordinal modeling, decision-level fusion, gated fusion, QWK

一句话总结¶

提出 DLOM：把 LLM 作文评分从“生成文本再解析分数”改为“在分数 token 上直接做决策”，并进一步给出多模态门控融合（DLOM-GF）与距离感知正则（DLOM-DA），在 EssayJudge 与 ASAP/ASAP++ 上稳定优于生成式基线。

背景与问题¶

生成式 AES 简单但决策隐式，容易受 prompt/解码/tokenization 影响
作文评分是天然序数任务：相邻分数错误不应等价于远距离错误
多模态评分中视觉信息贡献不稳定，固定融合策略不鲁棒

方法¶

1. DLOM：决策级序数建模¶

直接复用 LM head，不额外加分类头
从预定义分数 token 集 \(\mathcal S\) 抽取 logits：

\[ \mathbf z=\text{Logits}(e,v)_L[\mathcal S],\quad \hat y=\arg\max_k z_k \]

优点：避免“先生成再解析”误差链，决策可解释

2. DLOM-GF：多模态门控融合¶

文本分支 logits：\(\mathbf z^{(t)}\)
多模态分支 logits：\(\mathbf z^{(m)}\)
学习样本级权重 \(\alpha\)：

\[ \mathbf z=\alpha\mathbf z^{(m)}+(1-\alpha)\mathbf z^{(t)} \]

3. DLOM-DA：距离感知正则¶

适用于文本场景，通过分布期望分数约束序数距离：

\[ \mathcal L=\mathcal L_{CE}+\lambda\mathcal L_{dist} \]

其中 \(\mathcal L_{dist}\) 对预测期望分数与真实分数的偏差做 SmoothL1 约束。

实验数据¶

EssayJudge（多模态）¶

方法	平均 QWK
SFT-Gen	0.492
DLOM	0.504
DLOM-GF	0.516

ASAP/ASAP++（文本）¶

方法	trait QWK	prompt QWK
ArTS	0.689	0.717
SFT-Gen	0.646	0.676
DLOM	0.685	0.713
DLOM-DA	0.697	0.720

关键消融¶

在生成框架上直接叠序数 loss 反而退化（说明“位置错了”）
决策级建模和决策级融合均有稳定增益

亮点¶

把“语义理解”和“评分决策”解耦，问题建模更贴近 AES 本质
复用 LM head，几乎零结构改造
门控融合可解释性强，可分析不同 trait 的模态依赖

局限性¶

主要验证在 Qwen 系列，跨架构泛化需加强
多模态数据规模不大，置信区间仍值得报告
提升幅度中等，但 QWK 指标下仍具有实际意义

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐（方法论价值高，场景相对垂直）