跳转至

GeNRe: A French Gender-Neutral Rewriting System Using Collective Nouns

会议: ACL 2025
arXiv: 2505.23630
代码:
领域: NLP / 偏见缓解
关键词: gender-neutral rewriting, collective nouns, French NLP, gender bias, rule-based system

一句话总结

GeNRe 是首个法语性别中性重写系统,利用集体名词(collective nouns)替代阳性泛指(masculine generics),提出规则系统、微调模型和指令模型三种方案,其中规则系统和 Claude 3 Opus + 词典方案效果最好。

研究背景与动机

法语中名词分为阳性和阴性,且阳性被视为"默认"性别——用阳性复数指代男女混合群体(即"阳性泛指",masculine generics, MG)。大量心理语言学研究表明:

MG 导致认知偏差:使用阳性泛指时,受访者更倾向联想男性。Stahlberg et al. (2001) 发现德语中用 MG 提问时,受访者更可能说出男性名人

NLP 中的性别偏见放大:训练数据中的 MG 使用会被模型学习并放大,尤其影响机器翻译等跨语言任务

现有工作的空白: - 英语已有性别中性化系统(Sun 2021, Vanmassenhove 2021),但法语没有 - 法语唯一的性别重写系统(Lerner & Grouin 2024)采用"可见化"技术(如 professeur·e),但争议较大 - 集体名词作为中性化手段的自动应用从未被研究过

集体名词(如"la police" 指代所有警察,不论性别)的性别不依赖于指代对象,是实现性别中性的有效途径。相比可见化技术,中性化不改变现有拼写、不引入非标准标点,接受度更高,且更适合非二元性别认同的表达。

方法详解

整体框架

GeNRe 系统包含三种方案:(1)规则系统(RBS);(2)微调语言模型(T5、M2M100);(3)基于指令的大模型(Claude 3 Opus)。所有方案共享一个手工构建的法语集体名词-成员名词词典。

关键设计

  1. 集体名词词典构建(315 条目):通过三种途径收集:

    • 文献综述:从 Lecolle (2019) 的 138 个集体名词列表中筛选 105 条,排除多义词和语义过窄的词(如"duo"仅指二人组)
    • 人工收集:从媒体、互联网和语料库搜索工具 Sketch Engine 中收集 46 条
    • 半自动收集:爬取法语 Wiktionary,自动提取 "-phonie" 后缀词并生成对应 "-phone" 形式(如 anglophonie → anglophone),获得 164 条

设计动机是建立尽可能完整的映射,使每个阳性泛指成员名词都能找到对应集体名词。例如:soldats(士兵) → armée(军队)、policiers(警察) → police。

  1. 规则系统(RBS):核心流程包含两个组件:

    • 句法依赖检测:基于 spaCy(fr_core_news_sm)+ 自定义规则检测需要随成员名词变化的所有句法依赖项(限定词、形容词、动词过去分词、照应代词等)。比 spaCy 默认检测的 F1 从 0.183 提升至 0.799
    • 生成组件:用词典中的集体名词替换成员名词,处理冠词省音,使用 inflecteur 库对检测到的依赖项进行性数变形。针对过去分词和宾格代词做额外修正,使变形准确率从 73.01% 提升至 75.35%

输入句子中的成员名词用标签标记(如 <n-126>les auteurs</n>),一个成员名词可能对应多个集体名词,生成所有可能变体用于训练数据增强。

  1. 微调模型:选择 T5-small(60M 参数)和 M2M100(418M 参数)进行 seq2seq 微调。训练数据来自 RBS 生成的(原文-中性化文本)配对,每个语料库 60,000 对训练 + 6,000 对验证。选择这两个模型的原因是:体量适中、文本到文本性能好、M2M100 在葡萄牙语性别重写中已有应用。

  2. 指令模型(Claude 3 Opus):设计三种提示策略:

    • BASE:基本任务描述,不指定替换词
    • DICT:提供词典中的集体名词对应关系,明确指定替换目标
    • CORR:以 RBS 生成的句子为输入,要求模型纠正可能的语法错误

损失函数 / 训练策略

微调模型使用标准 seq2seq 交叉熵损失。数据源为 Wikipedia(292,076 句)和 Europarl(106,878 句)中包含成员名词的句子。

实验关键数据

主实验(表格)

评估在 500 句人工中性化参考句上进行(Wikipedia 250 + Europarl 250):

模型 WER (↓) BLEU (↑) Cosine (↑)
Baseline(原句) 12.529% 81.779 97.222
GeNRe-RBS 3.81% 92.887 99.05
GeNRe-T5 5.492% 90.234 98.804
GeNRe-M2M100 5.406% 90.692 98.112
Claude-BASE 12.291% 82.759 96.83
Claude-DICT 4.45% 93.519 99.038
Claude-CORR 10.137% 85.25 98.074

句法依赖检测(表格)

方法 Precision Recall F1
Baseline (spaCy 默认) 0.106 0.706 0.183
GeNRe-RBS 0.766 0.834 0.799

关键发现

  1. RBS 和 Claude-DICT 表现最优:RBS 在 WER 和 cosine 相似度上最好,Claude-DICT 在 BLEU 上最好。两者性能非常接近,说明结合词典的指令模型可以逼近精心设计的规则系统
  2. 微调模型未显著超越 RBS:与 Vanmassenhove 2021 的发现相反,微调并未带来提升,可能因为法语形态变化比英语复杂得多
  3. Claude-BASE(不提供词典)效果很差:甚至不如 baseline,说明 LLM 在特定语言学任务上需要明确的知识支撑
  4. 错误类型分析:形态句法错误(尤其是形容词和动词变形)在所有系统中最常见;语义错误在 Claude-BASE 中最严重(238 例),因为无约束的生成自由度导致使用不恰当或不存在的集体名词

亮点与洞察

  • 目标精准且实用:性别中性化比可见化(如 professeur·e)更不引发争议,且更包容非二元性别
  • 词典+LLM 的组合范式值得关注:单纯的 LLM (Claude-BASE) 表现糟糕,但加上 315 条词典映射后 (Claude-DICT) 立即媲美专家系统。这说明在特定语言学任务中,结构化知识仍然不可替代
  • 方法论的可迁移性:作者明确指出该方法适用于同样使用集体名词进行中性化的语言(如西班牙语),且语法变化相似的罗曼语族语言迁移成本较低

局限与展望

  1. 集体名词并非万能——许多语境下语义不适用(如 "soldats" 在非军事语境中替换为 "armée" 可能引发语义偏移)
  2. 中性化技术的去偏见效果可能弱于可见化技术(Spinelli 2023, Tibblin 2023)
  3. LLM-as-judge 用于指令模型的错误标注与人工标注不完全可比
  4. 仅限法语,虽然方法可迁移但需要为每种语言构建专门词典
  5. 变形准确率仍有提升空间(75.35%),复杂法语形态学需要更精细的规则或更好的形态工具

相关工作与启发

  • 性别重写任务最初由 Alhafni et al. (2022) 定义,本文将其扩展为更广义的框架:"生成一个或多个替代句子,实现性别中性化、包容化或性别转换"
  • 英语中性化工作(Sun 2021、Vanmassenhove 2021)达到类似水平的 WER/BLEU 改善
  • 本文是法语 NLP 性别偏见缓解的重要起点,为规则系统 + LLM 的混合方案提供了清晰样板

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个法语性别中性化系统,集体名词的利用是独特创新
  • 实验充分度: ⭐⭐⭐⭐ — 三种方案对比、多维度错误分析、两个语料库评估,设计全面
  • 写作质量: ⭐⭐⭐⭐ — 语言学背景介绍详尽,法语实例丰富,但对非法语读者门槛稍高
  • 价值: ⭐⭐⭐⭐ — 对法语 NLP 社区和性别偏见缓解研究有实际推动作用,词典和数据集的开源尤为可贵

相关论文