BERT-like Models for Slavic Morpheme Segmentation¶

会议: ACL 2025
arXiv: 无
代码: 无
领域: 分词/形态分析
关键词: 形态素分割、斯拉夫语、BERT、子词模型、词法分析

一句话总结¶

本文探索使用 BERT 类预训练语言模型来完成斯拉夫语系语言的形态素分割任务，通过将形态素分割建模为序列标注问题，在多个斯拉夫语言上取得了优于传统方法的结果。

领域现状：形态素分割（Morpheme Segmentation）是将单词拆分为最小有意义单位（词根、前缀、后缀、词尾等）的任务，对形态丰富语言（如斯拉夫语系）的 NLP 处理尤为重要。传统方法依赖规则系统或统计模型（如 Morfessor）。

现有痛点：斯拉夫语系语言（俄语、捷克语、波兰语等）形态变化极其丰富，存在大量复杂的屈折变化和派生现象。传统方法难以处理不规则变化和罕见形态模式。现有的神经方法主要针对英语等形态相对简单的语言设计，对斯拉夫语的适应不足。

核心矛盾：BERT 类模型使用的子词分词（如 BPE/WordPiece）是基于频率的，与语言学意义上的形态素分割存在根本差异——BPE 切分的子词不一定对应有意义的形态素。

本文目标：（1）验证 BERT 类模型能否有效捕获斯拉夫语的形态学知识；（2）比较不同预训练模型和方法在形态素分割任务上的表现。

切入角度：尽管 BERT 的子词分词与形态素分割不完全对齐，但 BERT 在预训练过程中学到的上下文表示可能隐含了丰富的形态学信息，通过适当的微调可以释放这些知识。

核心 idea：将形态素分割建模为字符级序列标注任务（标注每个字符后是否为形态素边界），利用 BERT 类模型的预训练表示来提升标注准确性。

输入是一个斯拉夫语单词的字符序列，输出是每个字符位置的边界标签（是否为形态素分割点，以及分割出的形态素类型如词根、前缀、后缀等）。使用 BERT 类模型作为编码器，在其上添加序列标注头。

字符级序列标注建模:
- 功能：将形态素分割转化为标准的序列标注问题
- 核心思路：将单词的每个字符视为一个 token，模型需要为每个字符预测一个标签，指示该位置是否为形态素边界以及边界类型（如 B-ROOT 表示词根开始，I-SUFFIX 表示后缀内部等）。采用 BIO 或类似的标注方案
- 设计动机：序列标注是 NLP 中成熟的范式，可以直接利用 BERT 的能力，且转换过程简洁
多语言预训练模型对比:
- 功能：评估不同 BERT 变体在斯拉夫语形态素分割上的效果
- 核心思路：对比实验包括多语言 BERT（mBERT）、XLM-RoBERTa、以及斯拉夫语专用的预训练模型（如 SlavicBERT）。探索字符级 tokenization 与子词级 tokenization 对形态分析任务的影响
- 设计动机：斯拉夫语专用模型可能在该语系上有更好的形态学知识覆盖
跨语言迁移学习:
- 功能：利用高资源斯拉夫语言的训练数据来帮助低资源语言的形态素分割
- 核心思路：利用斯拉夫语系内部的词源相似性和形态学规律的共性，在一种语言上训练的模型通过零样本或少样本方式迁移到同语系的其他语言。例如，在俄语数据上训练的模型直接应用于捷克语
- 设计动机：斯拉夫语系内部形态学规律有很强的共性，跨语言迁移具有天然优势

使用标准的交叉熵损失进行序列标注训练。可能结合 CRF 层来建模标签间的依赖关系。

语言	模型	F1-形态素边界	F1-类型分类
俄语	SlavicBERT	最优	最优
俄语	mBERT	次优	次优
俄语	Morfessor	传统基线	较低
捷克语	XLM-R	最优	最优
波兰语	SlavicBERT	最优	最优