PEOAT: Personalization-Guided Evolutionary Question Assembly for One-Shot Adaptive Testing¶

会议: AAAI 2026
arXiv: 2512.00439
代码: 无
领域: 优化
关键词: 自适应测试, 进化算法, 个性化, 组合优化, 智能教育

一句话总结¶

首次提出"一次性自适应测试 (OAT)"任务，将其建模为组合优化问题，并设计 PEOAT 框架——结合个性化初始化、认知增强进化搜索和多样性保持选择策略，在无交互反馈的条件下为每位考生一次性选出最优题集，大幅超越传统 CAT 方法。

研究背景与动机¶

计算机自适应测试 (CAT) 的实际限制¶

CAT 通过交互式选题和逐步能力估计来高效评估考生能力。典型流程是：选题模块 $\mathcal{M}_\pi$ 根据当前能力估计选题 → 考生作答 → 诊断模块 $\mathcal{M}_d$ 更新能力估计 → 循环。

CAT 方法可分为两类： - 启发式方法（MKLI、BECAT、MAAT）：基于可解释规则（如最大 Fisher 信息、KL 散度）选题 - 数据驱动方法（BOBCAT、NCAT、GMOCAT、UATS）：用强化学习等方法学习个性化选题策略

核心问题：CAT 的交互式、实时逐题选择在以下场景中不可行：

大规模考试：交互成本高，逐题动态选择不切实际

心理评估：需要最小化噪声和干扰，逐题反馈可能影响评估质量

远程/离线测试：设备限制、响应延迟等因素制约交互

资源受限环境：时间敏感场景下无法支持多轮交互

One-Shot Adaptive Testing (OAT) 任务¶

本文首次定义 OAT：给定考生初始能力估计 $\theta_i^0$，一次性选出固定长度 $L$ 的最优题集 $\mathcal{J}_i$，考生完成所有题目后进行单步能力更新，得到最终能力估计 $\theta_i^{final}$。

OAT 的三大挑战：

学生适应性：无中间反馈，需在优化过程中确保题目与个体能力匹配

巨大搜索空间：从大量候选题目中选出 $L$ 题的组合数是指数级的

编码稀疏性：候选题库远大于测试长度，编码表示面临维度灾难

建模思路¶

OAT 自然建模为双层组合优化问题： - 外层选择题目子集 $\mathcal{J}_i$ - 内层基于模拟作答数据估计学生能力 - 目标：最终能力估计尽可能接近学生真实能力

\[\mathcal{J}_i^* = \arg\max_{\mathcal{J}_i \subseteq \mathcal{Q}_i^{untested}} \mathcal{F}(\theta_i^{final}(\mathcal{J}_i), \hat{\theta}_i)\]

方法详解¶

整体框架¶

PEOAT 由三个核心模块组成： 1. 个性化感知种群初始化 → 构建信息丰富且多样的初始种群 2. 认知增强进化搜索 → 利用认知信号进行有效探索 3. 多样性保持环境选择 → 在适应度和多样性之间取得平衡

关键设计¶

1. 个性化感知种群初始化：基于能力-难度匹配的多策略采样¶

功能：根据学生能力向量 $\boldsymbol{\theta}_i$ 和题目难度向量 $\boldsymbol{\alpha}_j$ 之间的距离，自适应构建信息丰富且多样的初始种群。

编码方案：每个个体是长度为 $L$ 的题目索引序列 $\mathcal{X}_i^{(j)} = [x_1, x_2, \ldots, x_L]$，各索引不重复。

个性化距离向量： $$\delta_j = \|\boldsymbol{\theta}_i - \boldsymbol{\alpha}_j\|_2, \quad \forall j \in \{1, 2, \ldots, |\mathcal{Q}_i|\}$$

三策略初始化： - $\mathcal{O}_{match}$（匹配策略）：从距离最小的 $2L$ 个题目中均匀采样 $L$ 题 → 优先选择难度匹配的题目 - $\mathcal{O}_{diverse}$（多样策略）：从距离最大的 $2L$ 个题目中均匀采样 → 探索能力边界 - $\mathcal{O}_{rand}$（随机策略）：从中间距离题目中均匀采样 → 增加随机性

每个个体随机选择一种策略，确保种群整体多样性。

设计动机：直接随机初始化缺乏个性化先验，导致搜索空间过大；纯匹配初始化又缺乏多样性。三策略机制在利用（exploitation）和探索（exploration）之间取得平衡。

2. 认知增强进化搜索：利用 Fisher 信息引导变异¶

模式保持均匀交叉： - 生成二元掩码 $m_k \sim \text{Bernoulli}(0.5)$ - 两个后代通过掩码交换父代对应位置的基因 - 修复算子 $\mathcal{T}(\cdot)$ 解决重复题目，从未选题池随机替换

认知信息引导变异： - 随机选择一个基因 $x_{off}$ 移除 - 基于 Fisher 信息矩阵的 Frobenius 范数作为标量信息增益：

\[\mathbf{I}_j(\boldsymbol{\theta}_i) = |\boldsymbol{\alpha}_j|^2 \cdot p_j(1-p_j)\]

其中 $p_j = \sigma(\boldsymbol{\theta}_i^\top \boldsymbol{\alpha}_j)$ 是基于 IRT 的正确率预测。

按归一化信息增益构建分类采样分布： $$P(x_j \in \mathcal{Z}) = \frac{\mathbf{I}_j}{\sum_{k \in \mathcal{Z}} \mathbf{I}_k}$$

核心思路：information gain 高的题目（处于能力阈值附近、区分度高）被采样到的概率更大。这比随机变异更高效，确保新插入的基因既个性化又信息丰富。

3. 多样性保持环境选择：Hamming 距离过滤 + 精英保留¶

适应度评估： - 模拟 OAT 过程：学生完成选定题目 → 诊断模型虚拟参数更新 → 在保留测试集上评估 - 混合指标：$\mathcal{F} = (\mathcal{F}_{auc} + \mathcal{F}_{acc})/2$

选择机制： 1. 按适应度排序，保留 top-$k$ 精英（$k = \lfloor |\mathcal{P}|/2 \rfloor$） 2. 剩余候选通过 Hamming 距离过滤： - 将个体编码为二元位串 - 计算与精英池的最小 Hamming 距离 - 仅保留 $\text{HamDist} > \tau$ 的候选

设计动机：纯精英选择导致种群过早收敛；Hamming 距离过滤保持基因型多样性，避免局部最优。

训练策略¶

诊断模型：MIRT 和 NCD 两种 backbone
种群大小 20，进化 15 代，交叉率 0.8，变异率 0.2
测试长度 $L \in \{5, 10, 15, 20\}$
距离阈值 $\tau$ 在 $\{0.5, 0.75, 1, 1.25, 1.5\}$ 中搜索

实验关键数据¶

主实验¶

JUNYI 数据集 (MIRT backbone)¶

方法	类型	length=5 ACC/AUC	length=10	length=15	length=20
RAND	启发式	67.98/68.24	74.48/73.64	79.60/77.73	82.47/80.48
MKLI	启发式	70.14/70.27	78.03/76.64	83.26/81.39	86.07/84.27
BOBCAT	数据驱动	69.15/71.86	77.05/77.60	81.66/81.12	84.29/83.43
NCAT	数据驱动	71.19/73.48	80.23/77.37	82.69/81.43	84.93/84.04
UATS	数据驱动	70.83/74.45	80.33/77.19	83.13/81.27	84.38/84.65
PEOAT	Ours	79.64/83.05	85.38/85.85	86.39/86.68	86.85/87.83

在 length=5 时，PEOAT 超越次优方法 10.61%/10.35%（ACC/AUC），优势非常巨大。

PTADisc 数据集 (NCD backbone)¶

方法	length=5	length=10	length=15	length=20
NCAT	66.38/68.09	67.64/69.22	68.48/69.61	70.17/70.40
GMOCAT	66.47/68.24	67.48/68.97	69.14/69.49	69.73/70.36
PEOAT	69.37/70.84	73.65/73.58	75.44/75.07	75.91/74.93

在所有测试长度和两种诊断模型上，PEOAT 均全面领先。

消融实验¶

配置	length=5	length=10	length=15	length=20
w/o PI (无个性化初始化)	下降最大	下降最大	下降最大	下降最大
w/o CE (无认知增强进化)	中等下降	中等下降	中等下降	中等下降
w/o ES (无多样性选择)	轻微下降	轻微下降	轻微下降	轻微下降
PEOAT 完整	最优	最优	最优	最优

关键发现：个性化初始化的贡献最大，表明将个性化先验嵌入初始种群的质量对最终性能至关重要。

PEOAT vs PEOAT-B (无特定设计的基础版本)¶

CDM	方法	length=5	length=10	length=15	length=20
MIRT	PEOAT-B	78.35/81.97	84.12/84.48	84.96/85.21	85.73/86.55
MIRT	PEOAT	79.64/83.05	85.38/85.85	86.39/86.68	86.85/87.83
NCD	PEOAT-B	73.27/81.81	80.64/85.19	84.73/87.59	86.11/88.80
NCD	PEOAT	74.56/83.06	81.90/86.47	85.85/88.86	87.34/89.78

即使是基础版本也已大幅超越 CAT 基线，证明将 OAT 建模为组合优化本身就是正确思路。

关键发现¶

PEOAT 在短测试长度下优势最为显著（length=5 提升 10%+），说明在快速评估场景中最有价值
将 OAT 建模为组合优化并用进化算法求解是有效范式
个性化先验对种群质量的影响大于进化算子的改进
Fisher 信息引导的变异比随机变异在认知诊断场景中更为有效

亮点与洞察¶

OAT 任务定义：首次提出并形式化了一个新的、有实际意义的教育评估任务，填补了 CAT 与静态测试之间的空白
组合优化视角：将教育测试问题与进化优化自然连接，跨学科思维新颖
Fisher 信息驱动的变异：巧妙结合项目反应理论 (IRT) 和进化计算，使变异算子具备教育心理学依据
实用价值高：OAT 直接服务于大规模考试、心理评估、离线测试等刚需场景

局限与展望¶

每个学生都需要独立运行进化搜索（20 个体 × 15 代），计算成本随考生数量线性增长
依赖预训练的认知诊断模型（MIRT/NCD）的质量，诊断模型的误差会传播到选题
仅考虑固定长度测试，未探索自适应长度选题
可以尝试结合深度强化学习端到端学习选题策略
未考虑题目曝光率控制（同一批次不同考生可能选到相同题目）

评分¶

新颖性: ⭐⭐⭐⭐⭐ — OAT 任务首次提出，组合优化建模思路新颖
实验充分度: ⭐⭐⭐⭐ — 两个真实教育数据集、多种基线、消融分析，但缺少大规模场景测试
写作质量: ⭐⭐⭐⭐ — 公式化严谨清晰，问题定义规范
价值: ⭐⭐⭐⭐ — 对智能教育领域有实际应用价值，但场景相对垂直