HSKBenchmark: Modeling and Benchmarking Chinese Second Language Acquisition in Large Language Models through Curriculum Tuning¶

会议: AAAI 2026
arXiv: 2511.15574
代码: GitHub
领域: 语言习得建模 / LLM评估
关键词: 中文二语习得, 课程式微调, HSK基准, 写作评估, 语言复杂度

一句话总结¶

提出 HSKBenchmark，首个面向 LLM 中文二语习得（SLA）分阶段建模与写作评估的基准，包含 HSK 3-6 级教材（6.76M tokens）、16K 合成指令数据、30 个测试题目及语言学评估系统，配合课程式微调框架模拟人类习得轨迹。

研究背景与动机¶

领域现状：语言习得研究对理解人类语言智能至关重要。LLM 因可控性和可重复性，成为模拟语言习得的新工具。现有工作主要集中在一语习得（L1）建模，二语习得（SLA）建模尤其是中文 SLA 仍处于起步阶段。
现有痛点：
现有 SLA 建模仅通过控制训练数据量来区分习得阶段（如每 200K tokens 为一阶段），未考虑语言难度的分级
缺少系统的分级训练数据和评估体系
现有多语言基准（MMLU等）评估的是模型既有能力，而非动态习得发展
核心矛盾：人类实验中要控制学习者的语言输入在伦理和实践上不可行，而 LLM 提供了可控替代方案，但缺少以二语习得为目标的系统化基准来支撑分阶段建模和评估。
本文要解决什么：如何为中文 SLA 建模提供一个可复用的、带有明确等级划分的训练-评估基准？
切入角度：以 HSK（汉语水平考试）等级体系为核心，从教材分级、语法项分级、写作评估多维度构建完整基准。选择写作作为评估视角，因为写作最能反映语言产出能力的发展。
核心 idea：构建分级训练数据（教材预训练 + 语法指令微调），设计课程式微调框架逐级训练 LLM，建立覆盖语法覆盖率、错误数、词汇复杂度、句法复杂度和整体评分的评估系统，并训练 HSKAgent 实现自动化评估。

方法详解¶

整体框架¶

HSKBenchmark 由四大组件构成： 1. 分级训练数据：HSK 3-6 级教材（6.76M tokens）+ 基于 591 个语法项的 16K 合成指令数据 2. 课程式微调框架：逐级预训练（教材）→ 逐级指令微调（写作练习），从 HSK3 到 HSK6 3. 语言学评估系统：5 个维度——语法项覆盖率、写作错误、词汇复杂度（MATTR-50）、句法复杂度（MDD）、整体评分 4. HSKAgent：基于 10K 篇人类二语学习者作文微调的自动评估模型

关键设计¶

模块一：分级训练数据构建

做什么：收集 79 本主流国际中文教育教材（按 HSK 3-6 级划分），清洗图片/拼音/英文辅助内容；整合《国际中文教育中文水平等级标准》中 591 个语法项（词汇/短语/固定格式/句子成分/句式/强调用法），用 GPT-4.1-mini、DeepSeek-V3、Gemini-2.5-Flash 生成分级指令数据
核心思路：
教材按 HSK 等级自然分层，tokens 量从 HSK3 的 895K 增长到 HSK6 的 2.68M
每个语法项生成 10 条指令-输入-输出三元组，经 3 名研究生标注验证（Fleiss's Kappa=0.91，有效率=95%）
最终获得 16,462 条合成指令数据
设计动机：Krashen 的输入假说认为语言习得需要循序渐进的可理解输入（i+1），按等级分层的教材天然满足这一要求，优于仅按数据量切分的粗暴做法

模块二：课程式微调（Curriculum Tuning）

做什么：LLM 按 HSK 3→4→5→6 的顺序，每级先在教材上预训练（模拟自学），再在指令数据上微调（模拟写作练习）
核心思路：
预训练阶段：标准 next-token prediction，损失 \(\mathcal{L}_{PT}^{(l)} = -\sum_i \sum_t \log P_{\theta}(x_{i,t}|x_{i<t})\)
指令微调阶段：在写作提示上做 instruction following，损失 \(\mathcal{L}_{IT}^{(l)} = -\sum_i \sum_t \log P_{\theta_{PT}^{(l)}}(y_{i,t}|p_i, y_{i<t})\)
逐级递进：\(\theta_{PT}^{(l)} = \text{Pretraining}(\theta^{(l-1)}, \mathcal{T}^{(l)})\)，\(\theta_{IT}^{(l)} = \text{InstructionTuning}(\theta_{PT}^{(l)}, \mathcal{D}^{(l)})\)
设计动机：模拟人类从初级到高级的渐进学习路径，使模型在每个阶段获得与该等级匹配的语言能力，而非一次性暴露于所有难度的数据

模块三：语言学评估系统 + HSKAgent

做什么：从 5 个维度评估 LLM 的写作输出；训练 HSKAgent 在 10K 人类作文上微调以自动化评估
核心思路：
语法项覆盖率：统计写作中各级语法项的使用分布，理想情况下高级模型应更多使用高级语法
写作错误数（Err）：检测语法/用词/搭配等错误
词汇复杂度（MATTR-50）：基于移动平均类型-词频比，值越高词汇越丰富
句法复杂度（MDD）：平均依存距离，反映句子结构的复杂程度
整体评分（Score）：参考 HSK 考试评分标准的综合打分
设计动机：写作评估必须多维度、且自动化才能大规模使用。现有工具（CTAP、L2C-Rater）要么不能自动评分要么不能自动检错，HSKAgent 填补了这一空白

损失函数 / 训练策略¶

预训练和指令微调均使用标准自回归语言模型损失
课程顺序严格按 HSK 等级递增（3→4→5→6）
HSKAgent 基于写作评估数据集进行领域微调

实验关键数据¶

主实验¶

对比人类学习者和 LLM 在 30 个 HSK 考试写作题目上的表现（部分数据）：

模型/人类	HSK3 语法覆盖	HSK6 语法覆盖	错误数	MATTR-50	MDD	分数
母语者	0.341	0.126	1.40	0.806	2.98	88.3
学习者-95分	0.356	0.139	2.87	0.817	2.84	85.0
学习者-80分	0.386	0.133	3.50	0.793	2.65	74.8

（LLM 微调后的写作表现达到高级人类学习者水平）

消融实验¶

课程式微调 vs 全量一次性训练：课程式在各级语法覆盖和整体评分上均更优
预训练阶段的重要性：跳过预训练直接做指令微调导致词汇复杂度和句法复杂度显著下降
指令数据的多来源（GPT + DeepSeek + Gemini）比单一来源生成质量更高

关键发现¶

微调后的 LLM 展现出类似人类的习得特征：随训练等级提升，高级语法使用比例增加、错误减少、句法复杂度提升
课程式微调比非课程式方法更能捕捉阶段性发展轨迹
中文作为孤立语（与英语类型学差异显著）的 SLA 建模验证了 LLM 跨类型学语言的泛化能力

亮点与洞察¶

首个中文 SLA 建模基准：填补了该领域空白，HSK 等级体系提供了天然的难度分层框架
课程式微调的设计呼应了 Krashen 的输入假说，将语言习得理论与 LLM 训练范式巧妙结合
HSKAgent 的实用价值高——中文写作自动评估一直是难题，基于 10K 人类作文微调的 agent 有独立应用价值
评估系统的 5 个维度覆盖了二语习得研究的核心关注点

局限性 / 可改进方向¶

HSK 1-2 级因教材资源不足和选择题对齐困难未覆盖，不利于完整模拟初级阶段
教材数据仅 6.76M tokens，相对于 LLM 的训练规模非常小，预训练效果的上限受限
仅评估写作维度，未涉及 HSK 的听力、口语和阅读能力
未探索多语言迁移效应（如英语 L1 → 中文 L2 的迁移模式）

评分¶

⭐⭐⭐⭐ (4/5)

理由：问题定义有独特价值（中文SLA + LLM），基准构建系统完整（数据-训练-评估），课程式微调与语言习得理论结合自然。扣一分因为训练数据量偏小、仅覆盖写作维度、低级别缺失。