跳转至

📚 AI Paper Notes

Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction

Generating Plausible Distractors for Multiple-Choice Questions via Student Choice Prediction¶

会议: ACL 2025
arXiv: 2501.13125
代码: https://github.com/holi-lab/distractor-generator
领域: 文本生成
关键词: 干扰项生成, 选择题, DPO, 学生误解建模, 教育AI

一句话总结¶

提出选择题干扰项生成的三步流水线：(1) 训练配对排序器预测学生误选哪个干扰项；(2) 用排序器构造偏好数据集；(3) 用 DPO 训练生成器产生更具迷惑性的干扰项。在 CS 领域（Python/DB/ML）实验中，生成的干扰项更难以区分，且题目鉴别指数(DI)更高。

研究背景与动机¶

领域现状：选择题自动生成（尤其是干扰项）已有不少研究，但主要关注生成与人工编写相似的干扰项，忽略了"迷惑性"——即干扰项是否真的能暴露学生的误解。
现有痛点：(a) 简单的干扰项学生一眼就能排除，降低了评估价值；(b) 现有方法缺乏对学生实际选择行为的建模——不知道学生会被哪种错误答案吸引。
核心矛盾：好的干扰项需要"合理到差点就对"——这要求理解学生的典型误解（misconception），但这种知识通常需要教学经验。
本文要解决什么？ 自动生成"学生更可能选错"的干扰项。
切入角度：收集真实学生答题数据，用配对排序器学习学生的误选模式，再用 DPO 将这种偏好注入生成器。
核心idea一句话：用学生选择行为数据训练排序器→构造偏好数据→DPO训练生成更迷惑的干扰项。

方法详解¶

整体框架¶

三步流水线：Step 1: 训练配对排序器（给定两个干扰项，预测学生更可能选哪个）→ Step 2: 用排序器为大量干扰项对构造偏好排序数据集 → Step 3: 用 DPO 训练干扰项生成器（偏好更迷惑的干扰项）。

关键设计¶

配对排序器（Pairwise Ranker）:
做什么：给定一道题、正确答案和两个干扰项，预测学生更可能选哪个
核心思路：用 LLM 微调为配对排序模型，训练数据来自真实学生答题日志——如果干扰项A被30%学生选中而B被5%选中，则A更"可信"
设计动机：配对比较比绝对打分更稳定，且与人类判断框架一致
偏好数据集构造:
做什么：利用排序器为新生成的干扰项标注偏好
核心思路：对每道题生成多个干扰项候选，用排序器进行配对比较，构造 (chosen, rejected) 偏好对
设计动机：弥补真实学生数据不足——可以为合成干扰项也标注"迷惑性"偏好
DPO 干扰项生成器:
做什么：训练生成模型偏好生成更迷惑的干扰项
核心思路：标准 DPO 训练，chosen=更迷惑的干扰项，rejected=更容易排除的干扰项
设计动机：SFT 只能模仿人工干扰项的分布，DPO 额外引入了"哪个更好"的偏好信号

损失函数 / 训练策略¶

排序器：配对分类损失
生成器：SFT + DPO 两阶段
数据来源：Elice 在线教育平台的真实学生答题日志

实验关键数据¶

主实验¶

方法	迷惑性排名	题目鉴别指数(DI)(↑)	说明
GPT-4 直接生成	较低	中	干扰项可信度不足
SFT 基线	中	中	模仿人工但不够难
DPO 生成器	最高	最高	更接近学生误选分布

关键发现¶

配对排序器的排序准确率与人类专家相当——验证了从学生数据学习误解的可行性
DPO 训练的生成器在迷惑性和鉴别指数上全面胜出——偏好信号比单纯模仿更有效
在 ML/DL 等抽象概念较多的科目上改进最大——因为误解最多样
排序器能生成合理的误解推理——不只是排序，还能解释"学生为什么会选错"

亮点与洞察¶

用真实学生行为数据驱动是核心优势——不是凭空构造"难"的选项，而是学生实际会犯的错误。每个干扰项的迷惑性有真实选择频率作为 ground truth。
DPO 用于非对话场景——将偏好优化从对话/写作迁移到教育内容生成，是有意义的应用扩展。chosen=更迷惑的干扰项，rejected=容易排除的干扰项。
鉴别指数(DI)作为评估指标比传统文本相似度更有教育价值——直接衡量题目的区分能力，是教育测量学的核心指标。
配对排序器能解释学生误解——不只是排序，还能生成推理解释"学生为什么会选错这个选项"，有教学辅助价值。
该流水线可扩展到更多学科——只需对应学科的学生答题日志。

局限性 / 可改进方向¶

仅在 CS 领域验证（Python/DB/ML），其他学科迁移需要对应的学生行为数据
依赖真实答题日志进行训练，冷启动场景下数据不足时效果未知
未考虑多个干扰项之间的协同效应——单独优化每个干扰项可能导致多个干扰项之间语义重叠
配对排序器可能受限于训练数据中的误解分布——罕见误解可能无法被捕获
DPO 训练需要足够多的偏好对，数据量不足时可能过拟合

相关工作与启发¶

vs 基于段落的干扰项生成（EDGE, Qu et al.）: 之前方法针对阅读理解题（给定段落+问题生成干扰项），本文针对无段落的知识型选择题，更通用
vs GPT-4 直接生成: GPT 生成的干扰项缺乏对学生误解的精准把握——生成的选项可能"看起来合理"但不是学生真正会犯的错
vs 传统教育学方法（项目分析+教师迭代）: 传统需要大量测试数据和教师经验进行手工编写+测试迭代，本文自动化了这个过程，降低了出题成本
vs InverseCoder/STaR（代码自训练）: GiFT 论文中的"从错误中学习"思路与本文类似——都是利用负面信号（学生犯错/代码出错）来改进生成
该流水线的核心思想可迁移到其他"需要生成合理但错误的内容"的场景，如对抗样本生成、反例教学

评分¶

新颖性: ⭐⭐⭐⭐ 学生行为数据+配对排序器+DPO的组合新颖
实验充分度: ⭐⭐⭐⭐ 自动+人工+DI评估，但仅限CS领域
写作质量: ⭐⭐⭐⭐ 流水线清晰，实验设计合理
价值: ⭐⭐⭐⭐ 教育AI的实际需求，方法设计合理

技术细节补充¶

配对排序器使用LLM微调,输入(题目、正确答案、两个干扰项),输出二元选择
训练数据来自Elice在线教育平台的真实学生答题日志
DPO训练用排序器构造(chosen,rejected)偏好对,chosen为更易误选的干扰项
DI=高分组正确率-低分组正确率,DI越高说明题目区分能力越强
实验覆盖三个CS学科:Python(初级)、数据库(中级)、ML/DL(高级)
ML/DL科目改进最大,因为学生误解最多样化
配对排序器还能生成推理解释:为什么学生会选错某个选项

技术细节补充¶

配对排序器使用LLM微调,输入(题目、正确答案、两个干扰项),输出二元选择
训练数据来自Elice在线教育平台的真实学生答题日志
DPO训练用排序器构造(chosen,rejected)偏好对,chosen为更易误选的干扰项
DI=高分组正确率-低分组正确率,DI越高说明题目区分能力越强
实验覆盖三个CS学科:Python(初级)、数据库(中级)、ML/DL(高级)
ML/DL科目改进最大,因为学生误解最多样化
配对排序器还能生成推理解释:为什么学生会选错某个选项