跳转至

HSKBenchmark: Modeling and Benchmarking Chinese Second Language Acquisition in Large Language Models through Curriculum Tuning

会议: AAAI 2026
arXiv: 2511.15574
代码: GitHub
领域: 语言习得建模 / LLM评估
关键词: 中文二语习得, 课程式微调, HSK基准, 写作评估, 语言复杂度

一句话总结

提出 HSKBenchmark,首个面向 LLM 中文二语习得(SLA)分阶段建模与写作评估的基准,包含 HSK 3-6 级教材(6.76M tokens)、16K 合成指令数据、30 个测试题目及语言学评估系统,配合课程式微调框架模拟人类习得轨迹。

研究背景与动机

  1. 领域现状:语言习得研究对理解人类语言智能至关重要。LLM 因可控性和可重复性,成为模拟语言习得的新工具。现有工作主要集中在一语习得(L1)建模,二语习得(SLA)建模尤其是中文 SLA 仍处于起步阶段。

  2. 现有痛点

  3. 现有 SLA 建模仅通过控制训练数据量来区分习得阶段(如每 200K tokens 为一阶段),未考虑语言难度的分级
  4. 缺少系统的分级训练数据和评估体系
  5. 现有多语言基准(MMLU等)评估的是模型既有能力,而非动态习得发展

  6. 核心矛盾:人类实验中要控制学习者的语言输入在伦理和实践上不可行,而 LLM 提供了可控替代方案,但缺少以二语习得为目标的系统化基准来支撑分阶段建模和评估。

  7. 本文要解决什么:如何为中文 SLA 建模提供一个可复用的、带有明确等级划分的训练-评估基准?

  8. 切入角度:以 HSK(汉语水平考试)等级体系为核心,从教材分级、语法项分级、写作评估多维度构建完整基准。选择写作作为评估视角,因为写作最能反映语言产出能力的发展。

  9. 核心 idea:构建分级训练数据(教材预训练 + 语法指令微调),设计课程式微调框架逐级训练 LLM,建立覆盖语法覆盖率、错误数、词汇复杂度、句法复杂度和整体评分的评估系统,并训练 HSKAgent 实现自动化评估。

方法详解

整体框架

HSKBenchmark 由四大组件构成: 1. 分级训练数据:HSK 3-6 级教材(6.76M tokens)+ 基于 591 个语法项的 16K 合成指令数据 2. 课程式微调框架:逐级预训练(教材)→ 逐级指令微调(写作练习),从 HSK3 到 HSK6 3. 语言学评估系统:5 个维度——语法项覆盖率、写作错误、词汇复杂度(MATTR-50)、句法复杂度(MDD)、整体评分 4. HSKAgent:基于 10K 篇人类二语学习者作文微调的自动评估模型

关键设计

模块一:分级训练数据构建

  • 做什么:收集 79 本主流国际中文教育教材(按 HSK 3-6 级划分),清洗图片/拼音/英文辅助内容;整合《国际中文教育中文水平等级标准》中 591 个语法项(词汇/短语/固定格式/句子成分/句式/强调用法),用 GPT-4.1-mini、DeepSeek-V3、Gemini-2.5-Flash 生成分级指令数据
  • 核心思路
  • 教材按 HSK 等级自然分层,tokens 量从 HSK3 的 895K 增长到 HSK6 的 2.68M
  • 每个语法项生成 10 条指令-输入-输出三元组,经 3 名研究生标注验证(Fleiss's Kappa=0.91,有效率=95%)
  • 最终获得 16,462 条合成指令数据
  • 设计动机:Krashen 的输入假说认为语言习得需要循序渐进的可理解输入(i+1),按等级分层的教材天然满足这一要求,优于仅按数据量切分的粗暴做法

模块二:课程式微调(Curriculum Tuning)

  • 做什么:LLM 按 HSK 3→4→5→6 的顺序,每级先在教材上预训练(模拟自学),再在指令数据上微调(模拟写作练习)
  • 核心思路
  • 预训练阶段:标准 next-token prediction,损失 \(\mathcal{L}_{PT}^{(l)} = -\sum_i \sum_t \log P_{\theta}(x_{i,t}|x_{i<t})\)
  • 指令微调阶段:在写作提示上做 instruction following,损失 \(\mathcal{L}_{IT}^{(l)} = -\sum_i \sum_t \log P_{\theta_{PT}^{(l)}}(y_{i,t}|p_i, y_{i<t})\)
  • 逐级递进:\(\theta_{PT}^{(l)} = \text{Pretraining}(\theta^{(l-1)}, \mathcal{T}^{(l)})\)\(\theta_{IT}^{(l)} = \text{InstructionTuning}(\theta_{PT}^{(l)}, \mathcal{D}^{(l)})\)
  • 设计动机:模拟人类从初级到高级的渐进学习路径,使模型在每个阶段获得与该等级匹配的语言能力,而非一次性暴露于所有难度的数据

模块三:语言学评估系统 + HSKAgent

  • 做什么:从 5 个维度评估 LLM 的写作输出;训练 HSKAgent 在 10K 人类作文上微调以自动化评估
  • 核心思路
  • 语法项覆盖率:统计写作中各级语法项的使用分布,理想情况下高级模型应更多使用高级语法
  • 写作错误数(Err):检测语法/用词/搭配等错误
  • 词汇复杂度(MATTR-50):基于移动平均类型-词频比,值越高词汇越丰富
  • 句法复杂度(MDD):平均依存距离,反映句子结构的复杂程度
  • 整体评分(Score):参考 HSK 考试评分标准的综合打分
  • 设计动机:写作评估必须多维度、且自动化才能大规模使用。现有工具(CTAP、L2C-Rater)要么不能自动评分要么不能自动检错,HSKAgent 填补了这一空白

损失函数 / 训练策略

  • 预训练和指令微调均使用标准自回归语言模型损失
  • 课程顺序严格按 HSK 等级递增(3→4→5→6)
  • HSKAgent 基于写作评估数据集进行领域微调

实验关键数据

主实验

对比人类学习者和 LLM 在 30 个 HSK 考试写作题目上的表现(部分数据):

模型/人类 HSK3 语法覆盖 HSK6 语法覆盖 错误数 MATTR-50 MDD 分数
母语者 0.341 0.126 1.40 0.806 2.98 88.3
学习者-95分 0.356 0.139 2.87 0.817 2.84 85.0
学习者-80分 0.386 0.133 3.50 0.793 2.65 74.8

(LLM 微调后的写作表现达到高级人类学习者水平)

消融实验

  • 课程式微调 vs 全量一次性训练:课程式在各级语法覆盖和整体评分上均更优
  • 预训练阶段的重要性:跳过预训练直接做指令微调导致词汇复杂度和句法复杂度显著下降
  • 指令数据的多来源(GPT + DeepSeek + Gemini)比单一来源生成质量更高

关键发现

  • 微调后的 LLM 展现出类似人类的习得特征:随训练等级提升,高级语法使用比例增加、错误减少、句法复杂度提升
  • 课程式微调比非课程式方法更能捕捉阶段性发展轨迹
  • 中文作为孤立语(与英语类型学差异显著)的 SLA 建模验证了 LLM 跨类型学语言的泛化能力

亮点与洞察

  • 首个中文 SLA 建模基准:填补了该领域空白,HSK 等级体系提供了天然的难度分层框架
  • 课程式微调的设计呼应了 Krashen 的输入假说,将语言习得理论与 LLM 训练范式巧妙结合
  • HSKAgent 的实用价值高——中文写作自动评估一直是难题,基于 10K 人类作文微调的 agent 有独立应用价值
  • 评估系统的 5 个维度覆盖了二语习得研究的核心关注点

局限性 / 可改进方向

  • HSK 1-2 级因教材资源不足和选择题对齐困难未覆盖,不利于完整模拟初级阶段
  • 教材数据仅 6.76M tokens,相对于 LLM 的训练规模非常小,预训练效果的上限受限
  • 仅评估写作维度,未涉及 HSK 的听力、口语和阅读能力
  • 未探索多语言迁移效应(如英语 L1 → 中文 L2 的迁移模式)

相关工作与启发

  • BabyLM:推动儿童语言习得建模评价框架的 shared task,为本工作的 L1 对应物
  • Krashen 输入假说(i+1):课程式微调的理论基础
  • CTAP for Chinese:196 个语言复杂度指标的自动提取工具,但不含评分
  • Oba et al. 2023:XLM 上的 L1-L2 迁移研究,发现类型学距离影响迁移效果

评分

⭐⭐⭐⭐ (4/5)

理由:问题定义有独特价值(中文SLA + LLM),基准构建系统完整(数据-训练-评估),课程式微调与语言习得理论结合自然。扣一分因为训练数据量偏小、仅覆盖写作维度、低级别缺失。