跳转至

OasisSimp: An Open-source Asian-English Sentence Simplification Dataset

日期: 2026-03-14
arXiv: 2603.14111
代码: OasisSimp
领域: LLM效率 / 文本简化
关键词: sentence simplification, low-resource languages, multilingual, LLM evaluation, accessibility

一句话总结

构建 OasisSimp 多语言句子简化数据集(英语/僧伽罗语/泰语/泰米尔语/普什图语),由母语标注者经 3 轮训练后人工简化;评估 8 个开源 LLM 发现英语 SARI 可达 44.99 而低资源语言最低仅 24.07,揭示巨大的多语言性能鸿沟。

研究背景与动机

  1. 领域现状: 句子简化旨在降低语言复杂度同时保留含义,对语言学习者、认知障碍者等群体有重要价值。然而研究集中在英语等高资源语言,低资源语言严重缺乏数据。
  2. 现有痛点: 泰语、普什图语、泰米尔语此前完全没有句子简化数据集;僧伽罗语仅有 SiTSE(1000 句)。MULTISIM 等多语言基准仍以高资源语言为主,医学领域数据集(MultiCochrane、MultiMSD)覆盖面有限。
  3. 核心 idea: 构建覆盖 5 种语言、跨 4 个语系的人工简化数据集,系统评估 LLM 在低资源语言句子简化任务上的真实能力。

方法详解

数据构建

语言 句数 来源 平均复杂句长 平均简化句长 标注者数
英语 2500 加拿大报纸 24.35 词 17.23 词 3
僧伽罗语 2500 政府文件(SiTa) 30.12 词 28.78 词 5
泰语 1499 ThaiSum 新闻 48.24 token 37.77 token 5
泰米尔语 520 政府文件(SiTa) 23.22 词 17.65 词 5
普什图语 2500 Wikipedia 28.81 词 20.31 词 3
  • 英语: 100–300 字符,排除模板化内容(股票表、图片说明等),限制专有名词以鼓励句法/词汇层面简化
  • 僧伽罗语/泰米尔语: 来自 SiTa 三语平行语料库的法律/会计等复杂领域文件;僧伽罗语先用词频 < 50 过滤出 5859 句,人工筛选后保留 2500 句
  • 泰语: 跨 10 个新闻类别(政治、经济、人权等),用 CRF 分词器预分句后人工修正句边界
  • 普什图语: 跨 10 个语义类别各 1000 句,按句长、句法复杂度、词汇丰富度和语义深度选最复杂的 250 句/类
  • 标注流程:每句由 3–6 名母语标注者按统一指南执行四类操作(改写/拆分/删除/重排),经 3 轮训练 + 批次化质检(25–100 句/批);数据按 80/20 划分为测试/验证集

评估设置

  • 8 个开源 LLM:Aya-Expanse-8B、Cmd-R-7B、DeepSeek-7B-chat、EuroLLM-9B、Gemma-3-12B-it、LLaMA-3.2-3B、Mistral-7B-v0.2、Qwen2.5-7B
  • Zero-shot(温度 0.1–0.9 搜索最优)+ 1-shot + 5-shot
  • 指标: SARI(衡量添加/保留/删除词的质量)+ BERTScore Fref(语义相似度)

实验关键数据

英语 SARI(高资源基线)

模型 0-shot 1-shot 5-shot
Qwen 42.77 44.39 44.99
Mistral 43.23 44.18 44.74
Cmd-R 42.51 44.09 44.76
Aya 43.18 42.36 42.42
Gemma 39.40 41.41 43.64
DeepSeek 41.60 41.91 42.89

低资源语言 SARI(5-shot 最佳模型)

语言 最佳模型 5-shot SARI 英语同模型 差距
僧伽罗语 Gemma 39.89 43.64 -3.75
泰语 Gemma 41.28 43.64 -2.36
泰米尔语 Gemma 39.34 43.64 -4.30
普什图语 Gemma 37.91 43.64 -5.73

SARI 分量分析(核心发现)

  • DEL(删除)最稳定:英语 68–78,泰语高达 77–85,模型擅长删除冗余信息
  • KEEP(保留)受 few-shot 提升最大:LLaMA 泰语 KEEP 从 0-shot 24.83 → 5-shot 39.99(+15.16)
  • ADD(添加)是最弱环节:英语仅 5.24–11.91;僧伽罗语/普什图语除 Gemma 外几乎 < 1.0,模型难以生成新的简单表达

关键发现

  • Gemma 跨语言表现最一致:在所有 5 种语言上均为最佳或接近最佳,可能因训练数据覆盖了除普什图语外的全部评估语言
  • EuroLLM 对亚洲语言泛化失败:僧伽罗语 5-shot SARI 仅 24.07(最低),专注欧洲语言的预训练无法迁移
  • 语言包含 ≠ 简化能力:LLaMA 训练含泰语/泰米尔语,但简化性能仍不理想(泰米尔语 5-shot SARI 32.13 vs Gemma 39.34)
  • Few-shot 对低资源语言价值更大:Gemma 泰米尔语从 0-shot 32.82 → 5-shot 39.34(+6.52),远超英语的提升幅度(+4.24)
  • 部分模型在低资源语言上出现负 BERTScore(DeepSeek 僧伽罗语 0-shot: -0.14,LLaMA 普什图语 0-shot: -22.40),说明生成了完全不相关的输出

亮点与洞察

  • 填补了泰语/普什图语/泰米尔语句子简化数据的空白 — 这些语言的使用人口超过 2 亿
  • 标注流程严谨:多轮训练 + 批次化质检 + 母语标注者 + 语言学专家终审,值得借鉴
  • 系统性基准对比:8 模型 × 5 语言 × 3 shot 设置 + SARI 三分量拆解,对多语言 NLP 社区有参考价值

局限性 / 可改进方向

  • 数据规模有限(泰米尔语仅 520 句),不足以支持监督微调
  • 缺少人类评估(仅用自动指标),简化质量的主观评估对该任务尤为重要
  • 未探索 fine-tuning / 翻译数据增强等方法,仅评估了 prompt-based 方案
  • 语言选择受限于标注者可用性,无法系统研究语系对简化的影响

评分

  • 新颖性: ⭐⭐⭐ 数据集构建本身创新性有限,但填补了重要空白
  • 实验充分度: ⭐⭐⭐ 8 模型 × 5 语言 × 3 shot + SARI 分量分析,但缺少 fine-tuning 和人类评估
  • 写作质量: ⭐⭐⭐⭐ 数据构建描述详细透明,各语言筛选流程清晰
  • 价值: ⭐⭐⭐⭐ 对低资源语言 NLP 社区有重要贡献,数据集公开可用