OasisSimp: An Open-source Asian-English Sentence Simplification Dataset¶

日期: 2026-03-14
arXiv: 2603.14111
代码: OasisSimp
领域: LLM效率 / 文本简化
关键词: sentence simplification, low-resource languages, multilingual, LLM evaluation, accessibility

一句话总结¶

构建 OasisSimp 多语言句子简化数据集（英语/僧伽罗语/泰语/泰米尔语/普什图语），由母语标注者经 3 轮训练后人工简化；评估 8 个开源 LLM 发现英语 SARI 可达 44.99 而低资源语言最低仅 24.07，揭示巨大的多语言性能鸿沟。

研究背景与动机¶

领域现状: 句子简化旨在降低语言复杂度同时保留含义，对语言学习者、认知障碍者等群体有重要价值。然而研究集中在英语等高资源语言，低资源语言严重缺乏数据。
现有痛点: 泰语、普什图语、泰米尔语此前完全没有句子简化数据集；僧伽罗语仅有 SiTSE（1000 句）。MULTISIM 等多语言基准仍以高资源语言为主，医学领域数据集（MultiCochrane、MultiMSD）覆盖面有限。
核心 idea: 构建覆盖 5 种语言、跨 4 个语系的人工简化数据集，系统评估 LLM 在低资源语言句子简化任务上的真实能力。

方法详解¶

数据构建¶

语言	句数	来源	平均复杂句长	平均简化句长	标注者数
英语	2500	加拿大报纸	24.35 词	17.23 词	3
僧伽罗语	2500	政府文件(SiTa)	30.12 词	28.78 词	5
泰语	1499	ThaiSum 新闻	48.24 token	37.77 token	5
泰米尔语	520	政府文件(SiTa)	23.22 词	17.65 词	5
普什图语	2500	Wikipedia	28.81 词	20.31 词	3

英语: 100–300 字符，排除模板化内容（股票表、图片说明等），限制专有名词以鼓励句法/词汇层面简化
僧伽罗语/泰米尔语: 来自 SiTa 三语平行语料库的法律/会计等复杂领域文件；僧伽罗语先用词频 < 50 过滤出 5859 句，人工筛选后保留 2500 句
泰语: 跨 10 个新闻类别（政治、经济、人权等），用 CRF 分词器预分句后人工修正句边界
普什图语: 跨 10 个语义类别各 1000 句，按句长、句法复杂度、词汇丰富度和语义深度选最复杂的 250 句/类
标注流程：每句由 3–6 名母语标注者按统一指南执行四类操作（改写/拆分/删除/重排），经 3 轮训练 + 批次化质检（25–100 句/批）；数据按 80/20 划分为测试/验证集

评估设置¶

8 个开源 LLM：Aya-Expanse-8B、Cmd-R-7B、DeepSeek-7B-chat、EuroLLM-9B、Gemma-3-12B-it、LLaMA-3.2-3B、Mistral-7B-v0.2、Qwen2.5-7B
Zero-shot（温度 0.1–0.9 搜索最优）+ 1-shot + 5-shot
指标: SARI（衡量添加/保留/删除词的质量）+ BERTScore Fref（语义相似度）

实验关键数据¶

英语 SARI（高资源基线）¶

模型	0-shot	1-shot	5-shot
Qwen	42.77	44.39	44.99
Mistral	43.23	44.18	44.74
Cmd-R	42.51	44.09	44.76
Aya	43.18	42.36	42.42
Gemma	39.40	41.41	43.64
DeepSeek	41.60	41.91	42.89

低资源语言 SARI（5-shot 最佳模型）¶

语言	最佳模型	5-shot SARI	英语同模型	差距
僧伽罗语	Gemma	39.89	43.64	-3.75
泰语	Gemma	41.28	43.64	-2.36
泰米尔语	Gemma	39.34	43.64	-4.30
普什图语	Gemma	37.91	43.64	-5.73

SARI 分量分析（核心发现）¶

DEL（删除）最稳定：英语 68–78，泰语高达 77–85，模型擅长删除冗余信息
KEEP（保留）受 few-shot 提升最大：LLaMA 泰语 KEEP 从 0-shot 24.83 → 5-shot 39.99（+15.16）
ADD（添加）是最弱环节：英语仅 5.24–11.91；僧伽罗语/普什图语除 Gemma 外几乎 < 1.0，模型难以生成新的简单表达

关键发现¶

Gemma 跨语言表现最一致：在所有 5 种语言上均为最佳或接近最佳，可能因训练数据覆盖了除普什图语外的全部评估语言
EuroLLM 对亚洲语言泛化失败：僧伽罗语 5-shot SARI 仅 24.07（最低），专注欧洲语言的预训练无法迁移
语言包含 ≠ 简化能力：LLaMA 训练含泰语/泰米尔语，但简化性能仍不理想（泰米尔语 5-shot SARI 32.13 vs Gemma 39.34）
Few-shot 对低资源语言价值更大：Gemma 泰米尔语从 0-shot 32.82 → 5-shot 39.34（+6.52），远超英语的提升幅度（+4.24）
部分模型在低资源语言上出现负 BERTScore（DeepSeek 僧伽罗语 0-shot: -0.14，LLaMA 普什图语 0-shot: -22.40），说明生成了完全不相关的输出

亮点与洞察¶

填补了泰语/普什图语/泰米尔语句子简化数据的空白 — 这些语言的使用人口超过 2 亿
标注流程严谨：多轮训练 + 批次化质检 + 母语标注者 + 语言学专家终审，值得借鉴
系统性基准对比：8 模型 × 5 语言 × 3 shot 设置 + SARI 三分量拆解，对多语言 NLP 社区有参考价值

局限性 / 可改进方向¶

数据规模有限（泰米尔语仅 520 句），不足以支持监督微调
缺少人类评估（仅用自动指标），简化质量的主观评估对该任务尤为重要
未探索 fine-tuning / 翻译数据增强等方法，仅评估了 prompt-based 方案
语言选择受限于标注者可用性，无法系统研究语系对简化的影响

评分¶

新颖性: ⭐⭐⭐ 数据集构建本身创新性有限，但填补了重要空白
实验充分度: ⭐⭐⭐ 8 模型 × 5 语言 × 3 shot + SARI 分量分析，但缺少 fine-tuning 和人类评估
写作质量: ⭐⭐⭐⭐ 数据构建描述详细透明，各语言筛选流程清晰
价值: ⭐⭐⭐⭐ 对低资源语言 NLP 社区有重要贡献，数据集公开可用