跳转至

Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction

会议: ACL 2025
arXiv: 2501.13125
代码: https://github.com/holi-lab/distractor-generator
领域: 文本生成
关键词: 干扰项生成, 选择题, DPO, 学生误解建模, 教育AI

一句话总结

提出选择题干扰项生成的三步流水线:(1) 训练配对排序器预测学生误选哪个干扰项;(2) 用排序器构造偏好数据集;(3) 用 DPO 训练生成器产生更具迷惑性的干扰项。在 CS 领域(Python/DB/ML)实验中,生成的干扰项更难以区分,且题目鉴别指数(DI)更高。

研究背景与动机

  1. 领域现状:选择题自动生成(尤其是干扰项)已有不少研究,但主要关注生成与人工编写相似的干扰项,忽略了"迷惑性"——即干扰项是否真的能暴露学生的误解。
  2. 现有痛点:(a) 简单的干扰项学生一眼就能排除,降低了评估价值;(b) 现有方法缺乏对学生实际选择行为的建模——不知道学生会被哪种错误答案吸引。
  3. 核心矛盾:好的干扰项需要"合理到差点就对"——这要求理解学生的典型误解(misconception),但这种知识通常需要教学经验。
  4. 本文要解决什么? 自动生成"学生更可能选错"的干扰项。
  5. 切入角度:收集真实学生答题数据,用配对排序器学习学生的误选模式,再用 DPO 将这种偏好注入生成器。
  6. 核心idea一句话:用学生选择行为数据训练排序器→构造偏好数据→DPO训练生成更迷惑的干扰项。

方法详解

整体框架

三步流水线:Step 1: 训练配对排序器(给定两个干扰项,预测学生更可能选哪个)→ Step 2: 用排序器为大量干扰项对构造偏好排序数据集 → Step 3: 用 DPO 训练干扰项生成器(偏好更迷惑的干扰项)。

关键设计

  1. 配对排序器(Pairwise Ranker):
  2. 做什么:给定一道题、正确答案和两个干扰项,预测学生更可能选哪个
  3. 核心思路:用 LLM 微调为配对排序模型,训练数据来自真实学生答题日志——如果干扰项A被30%学生选中而B被5%选中,则A更"可信"
  4. 设计动机:配对比较比绝对打分更稳定,且与人类判断框架一致

  5. 偏好数据集构造:

  6. 做什么:利用排序器为新生成的干扰项标注偏好
  7. 核心思路:对每道题生成多个干扰项候选,用排序器进行配对比较,构造 (chosen, rejected) 偏好对
  8. 设计动机:弥补真实学生数据不足——可以为合成干扰项也标注"迷惑性"偏好

  9. DPO 干扰项生成器:

  10. 做什么:训练生成模型偏好生成更迷惑的干扰项
  11. 核心思路:标准 DPO 训练,chosen=更迷惑的干扰项,rejected=更容易排除的干扰项
  12. 设计动机:SFT 只能模仿人工干扰项的分布,DPO 额外引入了"哪个更好"的偏好信号

损失函数 / 训练策略

  • 排序器:配对分类损失
  • 生成器:SFT + DPO 两阶段
  • 数据来源:Elice 在线教育平台的真实学生答题日志

实验关键数据

主实验

方法 迷惑性排名 题目鉴别指数(DI)(↑) 说明
GPT-4 直接生成 较低 干扰项可信度不足
SFT 基线 模仿人工但不够难
DPO 生成器 最高 最高 更接近学生误选分布

关键发现

  • 配对排序器的排序准确率与人类专家相当——验证了从学生数据学习误解的可行性
  • DPO 训练的生成器在迷惑性和鉴别指数上全面胜出——偏好信号比单纯模仿更有效
  • 在 ML/DL 等抽象概念较多的科目上改进最大——因为误解最多样
  • 排序器能生成合理的误解推理——不只是排序,还能解释"学生为什么会选错"

亮点与洞察

  • 用真实学生行为数据驱动是核心优势——不是凭空构造"难"的选项,而是学生实际会犯的错误。每个干扰项的迷惑性有真实选择频率作为 ground truth。
  • DPO 用于非对话场景——将偏好优化从对话/写作迁移到教育内容生成,是有意义的应用扩展。chosen=更迷惑的干扰项,rejected=容易排除的干扰项。
  • 鉴别指数(DI)作为评估指标比传统文本相似度更有教育价值——直接衡量题目的区分能力,是教育测量学的核心指标。
  • 配对排序器能解释学生误解——不只是排序,还能生成推理解释"学生为什么会选错这个选项",有教学辅助价值。
  • 该流水线可扩展到更多学科——只需对应学科的学生答题日志。

局限性 / 可改进方向

  • 仅在 CS 领域验证(Python/DB/ML),其他学科迁移需要对应的学生行为数据
  • 依赖真实答题日志进行训练,冷启动场景下数据不足时效果未知
  • 未考虑多个干扰项之间的协同效应——单独优化每个干扰项可能导致多个干扰项之间语义重叠
  • 配对排序器可能受限于训练数据中的误解分布——罕见误解可能无法被捕获
  • DPO 训练需要足够多的偏好对,数据量不足时可能过拟合

相关工作与启发

  • vs 基于段落的干扰项生成(EDGE, Qu et al.): 之前方法针对阅读理解题(给定段落+问题生成干扰项),本文针对无段落的知识型选择题,更通用
  • vs GPT-4 直接生成: GPT 生成的干扰项缺乏对学生误解的精准把握——生成的选项可能"看起来合理"但不是学生真正会犯的错
  • vs 传统教育学方法(项目分析+教师迭代): 传统需要大量测试数据和教师经验进行手工编写+测试迭代,本文自动化了这个过程,降低了出题成本
  • vs InverseCoder/STaR(代码自训练): GiFT 论文中的"从错误中学习"思路与本文类似——都是利用负面信号(学生犯错/代码出错)来改进生成
  • 该流水线的核心思想可迁移到其他"需要生成合理但错误的内容"的场景,如对抗样本生成、反例教学

评分

  • 新颖性: ⭐⭐⭐⭐ 学生行为数据+配对排序器+DPO的组合新颖
  • 实验充分度: ⭐⭐⭐⭐ 自动+人工+DI评估,但仅限CS领域
  • 写作质量: ⭐⭐⭐⭐ 流水线清晰,实验设计合理
  • 价值: ⭐⭐⭐⭐ 教育AI的实际需求,方法设计合理

技术细节补充

  • 配对排序器使用LLM微调,输入(题目、正确答案、两个干扰项),输出二元选择
  • 训练数据来自Elice在线教育平台的真实学生答题日志
  • DPO训练用排序器构造(chosen,rejected)偏好对,chosen为更易误选的干扰项
  • DI=高分组正确率-低分组正确率,DI越高说明题目区分能力越强
  • 实验覆盖三个CS学科:Python(初级)、数据库(中级)、ML/DL(高级)
  • ML/DL科目改进最大,因为学生误解最多样化
  • 配对排序器还能生成推理解释:为什么学生会选错某个选项

技术细节补充

  • 配对排序器使用LLM微调,输入(题目、正确答案、两个干扰项),输出二元选择
  • 训练数据来自Elice在线教育平台的真实学生答题日志
  • DPO训练用排序器构造(chosen,rejected)偏好对,chosen为更易误选的干扰项
  • DI=高分组正确率-低分组正确率,DI越高说明题目区分能力越强
  • 实验覆盖三个CS学科:Python(初级)、数据库(中级)、ML/DL(高级)
  • ML/DL科目改进最大,因为学生误解最多样化
  • 配对排序器还能生成推理解释:为什么学生会选错某个选项