GeNRe: A French Gender-Neutral Rewriting System Using Collective Nouns¶

会议: ACL 2025
arXiv: 2505.23630
代码: 有
领域: NLP / 偏见缓解
关键词: gender-neutral rewriting, collective nouns, French NLP, gender bias, rule-based system

一句话总结¶

GeNRe 是首个法语性别中性重写系统，利用集体名词（collective nouns）替代阳性泛指（masculine generics），提出规则系统、微调模型和指令模型三种方案，其中规则系统和 Claude 3 Opus + 词典方案效果最好。

研究背景与动机¶

法语中名词分为阳性和阴性，且阳性被视为"默认"性别——用阳性复数指代男女混合群体（即"阳性泛指"，masculine generics, MG）。大量心理语言学研究表明：

MG 导致认知偏差：使用阳性泛指时，受访者更倾向联想男性。Stahlberg et al. (2001) 发现德语中用 MG 提问时，受访者更可能说出男性名人

NLP 中的性别偏见放大：训练数据中的 MG 使用会被模型学习并放大，尤其影响机器翻译等跨语言任务

现有工作的空白： - 英语已有性别中性化系统（Sun 2021, Vanmassenhove 2021），但法语没有 - 法语唯一的性别重写系统（Lerner & Grouin 2024）采用"可见化"技术（如 professeur·e），但争议较大 - 集体名词作为中性化手段的自动应用从未被研究过

集体名词（如"la police" 指代所有警察，不论性别）的性别不依赖于指代对象，是实现性别中性的有效途径。相比可见化技术，中性化不改变现有拼写、不引入非标准标点，接受度更高，且更适合非二元性别认同的表达。

方法详解¶

整体框架¶

GeNRe 系统包含三种方案：（1）规则系统（RBS）；（2）微调语言模型（T5、M2M100）；（3）基于指令的大模型（Claude 3 Opus）。所有方案共享一个手工构建的法语集体名词-成员名词词典。

关键设计¶

集体名词词典构建（315 条目）：通过三种途径收集：
- 文献综述：从 Lecolle (2019) 的 138 个集体名词列表中筛选 105 条，排除多义词和语义过窄的词（如"duo"仅指二人组）
- 人工收集：从媒体、互联网和语料库搜索工具 Sketch Engine 中收集 46 条
- 半自动收集：爬取法语 Wiktionary，自动提取 "-phonie" 后缀词并生成对应 "-phone" 形式（如 anglophonie → anglophone），获得 164 条

设计动机是建立尽可能完整的映射，使每个阳性泛指成员名词都能找到对应集体名词。例如：soldats（士兵） → armée（军队）、policiers（警察） → police。

规则系统（RBS）：核心流程包含两个组件：
- 句法依赖检测：基于 spaCy（fr_core_news_sm）+ 自定义规则检测需要随成员名词变化的所有句法依赖项（限定词、形容词、动词过去分词、照应代词等）。比 spaCy 默认检测的 F1 从 0.183 提升至 0.799
- 生成组件：用词典中的集体名词替换成员名词，处理冠词省音，使用 inflecteur 库对检测到的依赖项进行性数变形。针对过去分词和宾格代词做额外修正，使变形准确率从 73.01% 提升至 75.35%

输入句子中的成员名词用标签标记（如 <n-126>les auteurs</n>），一个成员名词可能对应多个集体名词，生成所有可能变体用于训练数据增强。

微调模型：选择 T5-small（60M 参数）和 M2M100（418M 参数）进行 seq2seq 微调。训练数据来自 RBS 生成的（原文-中性化文本）配对，每个语料库 60,000 对训练 + 6,000 对验证。选择这两个模型的原因是：体量适中、文本到文本性能好、M2M100 在葡萄牙语性别重写中已有应用。
指令模型（Claude 3 Opus）：设计三种提示策略：
- BASE：基本任务描述，不指定替换词
- DICT：提供词典中的集体名词对应关系，明确指定替换目标
- CORR：以 RBS 生成的句子为输入，要求模型纠正可能的语法错误

损失函数 / 训练策略¶

微调模型使用标准 seq2seq 交叉熵损失。数据源为 Wikipedia（292,076 句）和 Europarl（106,878 句）中包含成员名词的句子。

实验关键数据¶

主实验（表格）¶

评估在 500 句人工中性化参考句上进行（Wikipedia 250 + Europarl 250）：

模型	WER (↓)	BLEU (↑)	Cosine (↑)
Baseline（原句）	12.529%	81.779	97.222
GeNRe-RBS	3.81%	92.887	99.05
GeNRe-T5	5.492%	90.234	98.804
GeNRe-M2M100	5.406%	90.692	98.112
Claude-BASE	12.291%	82.759	96.83
Claude-DICT	4.45%	93.519	99.038
Claude-CORR	10.137%	85.25	98.074

句法依赖检测（表格）¶

方法	Precision	Recall	F1
Baseline (spaCy 默认)	0.106	0.706	0.183
GeNRe-RBS	0.766	0.834	0.799

关键发现¶

RBS 和 Claude-DICT 表现最优：RBS 在 WER 和 cosine 相似度上最好，Claude-DICT 在 BLEU 上最好。两者性能非常接近，说明结合词典的指令模型可以逼近精心设计的规则系统
微调模型未显著超越 RBS：与 Vanmassenhove 2021 的发现相反，微调并未带来提升，可能因为法语形态变化比英语复杂得多
Claude-BASE（不提供词典）效果很差：甚至不如 baseline，说明 LLM 在特定语言学任务上需要明确的知识支撑
错误类型分析：形态句法错误（尤其是形容词和动词变形）在所有系统中最常见；语义错误在 Claude-BASE 中最严重（238 例），因为无约束的生成自由度导致使用不恰当或不存在的集体名词

亮点与洞察¶

目标精准且实用：性别中性化比可见化（如 professeur·e）更不引发争议，且更包容非二元性别
词典+LLM 的组合范式值得关注：单纯的 LLM (Claude-BASE) 表现糟糕，但加上 315 条词典映射后 (Claude-DICT) 立即媲美专家系统。这说明在特定语言学任务中，结构化知识仍然不可替代
方法论的可迁移性：作者明确指出该方法适用于同样使用集体名词进行中性化的语言（如西班牙语），且语法变化相似的罗曼语族语言迁移成本较低

局限与展望¶

集体名词并非万能——许多语境下语义不适用（如 "soldats" 在非军事语境中替换为 "armée" 可能引发语义偏移）
中性化技术的去偏见效果可能弱于可见化技术（Spinelli 2023, Tibblin 2023）
LLM-as-judge 用于指令模型的错误标注与人工标注不完全可比
仅限法语，虽然方法可迁移但需要为每种语言构建专门词典
变形准确率仍有提升空间（75.35%），复杂法语形态学需要更精细的规则或更好的形态工具

评分¶

新颖性: ⭐⭐⭐⭐ — 首个法语性别中性化系统，集体名词的利用是独特创新
实验充分度: ⭐⭐⭐⭐ — 三种方案对比、多维度错误分析、两个语料库评估，设计全面
写作质量: ⭐⭐⭐⭐ — 语言学背景介绍详尽，法语实例丰富，但对非法语读者门槛稍高
价值: ⭐⭐⭐⭐ — 对法语 NLP 社区和性别偏见缓解研究有实际推动作用，词典和数据集的开源尤为可贵