Improving Low-Resource Morphological Inflection via Self-Supervised Objectives¶

会议: ACL 2025
arXiv: 2506.05227
代码: 无
领域: 自监督学习 / 形态学
关键词: 形态变化, 自监督学习, 低资源语言, 掩码语言模型, 字符级序列到序列

一句话总结¶

系统探索 13 种自监督辅助目标（自编码、CMLM、T5-style 等）在极低资源形态变化任务中的效果，发现无标注数据极少时自编码最优，数据增多后字符级 MLM 更好，按形态素边界采样掩码是最有前景的方向。

领域现状：形态变化（morphological inflection）是字符级 seq2seq 任务（如 try+PST→tried），对语言文献编纂至关重要。NLP 进步主要靠大规模数据预训练，但很多语言缺乏此类资源。
现有痛点：低资源形态变化（200-600 监督样本）性能差，现有工作主要通过架构归纳偏置改进；自监督目标虽在高资源 NLP 成功，但在字符级任务上探索不足。
核心矛盾：字符级任务模型小、数据少，常规 MLM 的大规模预训练不适用，需要针对性的自监督策略。
本文要解决什么？ 哪种自监督目标最适合极低资源形态变化？不同掩码策略、目标函数、数据过滤方式如何影响性能？
切入角度：在多任务学习框架下，系统比较掩码策略（iid/suffix/prefix）× 目标（CMLM/T5）× 删除vs掩码 × 形态素边界掩码。
核心idea一句话：字符级 MLM 变体的系统性比较 + 形态素边界掩码是低资源形态变化的最优自监督方向。

编码器-解码器 Transformer（7.4M 参数），多任务训练：主任务为形态变化（lemma + tag → inflected form），辅助任务为自监督去噪（corruption + [TASK] → original word）。两任务共享模型，loss 直接相加。

标准 seq2seq 交叉熵 loss，主任务+辅助任务 loss 相加。约 1 小时/模型在 A100 上训练。

数据集	Baseline	AE（自编码）	cmlm-iid	cmlm-suff	t5-iid	t5-suff
ud-1k (1k监督)	64.39	75.83	74.67	74.07	74.39	73.43
ud-200 (200监督)	5.16	47.48	42.92	42.76	41.04	41.34
ud-wl-NR (去重)	5.16	50.49	51.68	50.51	51.26	49.19

数据极少时自编码最强：ud-200 上 AE=47.48 vs cmlm-iid=42.92，gap=4.56pp。解释：自编码增强复制偏置，刚好契合变化任务的"复制+修改"特性
数据多了 MLM 反超：ud-wl-NR 上 cmlm-iid=51.68 > AE=50.49，数据多样性使 MLM 发挥优势
归纳偏置强的目标不一定更好：suffix 策略虽然直觉上更匹配后缀变化，但不如中性 iid
形态素边界掩码是例外：利用真实形态素边界采样掩码一致性更好，是最有前景方向