OasisSimp: An Open-source Asian-English Sentence Simplification Dataset
日期: 2026-03-14
arXiv: 2603.14111
代码: OasisSimp
领域: LLM效率 / 文本简化
关键词: sentence simplification, low-resource languages, multilingual, LLM evaluation, accessibility
一句话总结
构建 OasisSimp 多语言句子简化数据集(英语/僧伽罗语/泰语/泰米尔语/普什图语),由母语标注者经 3 轮训练后人工简化;评估 8 个开源 LLM 发现英语 SARI 可达 44.99 而低资源语言最低仅 24.07,揭示巨大的多语言性能鸿沟。
研究背景与动机
- 领域现状: 句子简化旨在降低语言复杂度同时保留含义,对语言学习者、认知障碍者等群体有重要价值。然而研究集中在英语等高资源语言,低资源语言严重缺乏数据。
- 现有痛点: 泰语、普什图语、泰米尔语此前完全没有句子简化数据集;僧伽罗语仅有 SiTSE(1000 句)。MULTISIM 等多语言基准仍以高资源语言为主,医学领域数据集(MultiCochrane、MultiMSD)覆盖面有限。
- 核心 idea: 构建覆盖 5 种语言、跨 4 个语系的人工简化数据集,系统评估 LLM 在低资源语言句子简化任务上的真实能力。
方法详解
数据构建
| 语言 |
句数 |
来源 |
平均复杂句长 |
平均简化句长 |
标注者数 |
| 英语 |
2500 |
加拿大报纸 |
24.35 词 |
17.23 词 |
3 |
| 僧伽罗语 |
2500 |
政府文件(SiTa) |
30.12 词 |
28.78 词 |
5 |
| 泰语 |
1499 |
ThaiSum 新闻 |
48.24 token |
37.77 token |
5 |
| 泰米尔语 |
520 |
政府文件(SiTa) |
23.22 词 |
17.65 词 |
5 |
| 普什图语 |
2500 |
Wikipedia |
28.81 词 |
20.31 词 |
3 |
- 英语: 100–300 字符,排除模板化内容(股票表、图片说明等),限制专有名词以鼓励句法/词汇层面简化
- 僧伽罗语/泰米尔语: 来自 SiTa 三语平行语料库的法律/会计等复杂领域文件;僧伽罗语先用词频 < 50 过滤出 5859 句,人工筛选后保留 2500 句
- 泰语: 跨 10 个新闻类别(政治、经济、人权等),用 CRF 分词器预分句后人工修正句边界
- 普什图语: 跨 10 个语义类别各 1000 句,按句长、句法复杂度、词汇丰富度和语义深度选最复杂的 250 句/类
- 标注流程:每句由 3–6 名母语标注者按统一指南执行四类操作(改写/拆分/删除/重排),经 3 轮训练 + 批次化质检(25–100 句/批);数据按 80/20 划分为测试/验证集
评估设置
- 8 个开源 LLM:Aya-Expanse-8B、Cmd-R-7B、DeepSeek-7B-chat、EuroLLM-9B、Gemma-3-12B-it、LLaMA-3.2-3B、Mistral-7B-v0.2、Qwen2.5-7B
- Zero-shot(温度 0.1–0.9 搜索最优)+ 1-shot + 5-shot
- 指标: SARI(衡量添加/保留/删除词的质量)+ BERTScore Fref(语义相似度)
实验关键数据
英语 SARI(高资源基线)
| 模型 |
0-shot |
1-shot |
5-shot |
| Qwen |
42.77 |
44.39 |
44.99 |
| Mistral |
43.23 |
44.18 |
44.74 |
| Cmd-R |
42.51 |
44.09 |
44.76 |
| Aya |
43.18 |
42.36 |
42.42 |
| Gemma |
39.40 |
41.41 |
43.64 |
| DeepSeek |
41.60 |
41.91 |
42.89 |
低资源语言 SARI(5-shot 最佳模型)
| 语言 |
最佳模型 |
5-shot SARI |
英语同模型 |
差距 |
| 僧伽罗语 |
Gemma |
39.89 |
43.64 |
-3.75 |
| 泰语 |
Gemma |
41.28 |
43.64 |
-2.36 |
| 泰米尔语 |
Gemma |
39.34 |
43.64 |
-4.30 |
| 普什图语 |
Gemma |
37.91 |
43.64 |
-5.73 |
SARI 分量分析(核心发现)
- DEL(删除)最稳定:英语 68–78,泰语高达 77–85,模型擅长删除冗余信息
- KEEP(保留)受 few-shot 提升最大:LLaMA 泰语 KEEP 从 0-shot 24.83 → 5-shot 39.99(+15.16)
- ADD(添加)是最弱环节:英语仅 5.24–11.91;僧伽罗语/普什图语除 Gemma 外几乎 < 1.0,模型难以生成新的简单表达
关键发现
- Gemma 跨语言表现最一致:在所有 5 种语言上均为最佳或接近最佳,可能因训练数据覆盖了除普什图语外的全部评估语言
- EuroLLM 对亚洲语言泛化失败:僧伽罗语 5-shot SARI 仅 24.07(最低),专注欧洲语言的预训练无法迁移
- 语言包含 ≠ 简化能力:LLaMA 训练含泰语/泰米尔语,但简化性能仍不理想(泰米尔语 5-shot SARI 32.13 vs Gemma 39.34)
- Few-shot 对低资源语言价值更大:Gemma 泰米尔语从 0-shot 32.82 → 5-shot 39.34(+6.52),远超英语的提升幅度(+4.24)
- 部分模型在低资源语言上出现负 BERTScore(DeepSeek 僧伽罗语 0-shot: -0.14,LLaMA 普什图语 0-shot: -22.40),说明生成了完全不相关的输出
亮点与洞察
- 填补了泰语/普什图语/泰米尔语句子简化数据的空白 — 这些语言的使用人口超过 2 亿
- 标注流程严谨:多轮训练 + 批次化质检 + 母语标注者 + 语言学专家终审,值得借鉴
- 系统性基准对比:8 模型 × 5 语言 × 3 shot 设置 + SARI 三分量拆解,对多语言 NLP 社区有参考价值
局限性 / 可改进方向
- 数据规模有限(泰米尔语仅 520 句),不足以支持监督微调
- 缺少人类评估(仅用自动指标),简化质量的主观评估对该任务尤为重要
- 未探索 fine-tuning / 翻译数据增强等方法,仅评估了 prompt-based 方案
- 语言选择受限于标注者可用性,无法系统研究语系对简化的影响
评分
- 新颖性: ⭐⭐⭐ 数据集构建本身创新性有限,但填补了重要空白
- 实验充分度: ⭐⭐⭐ 8 模型 × 5 语言 × 3 shot + SARI 分量分析,但缺少 fine-tuning 和人类评估
- 写作质量: ⭐⭐⭐⭐ 数据构建描述详细透明,各语言筛选流程清晰
- 价值: ⭐⭐⭐⭐ 对低资源语言 NLP 社区有重要贡献,数据集公开可用