Code-Switching and Syntax: A Large-Scale Experiment¶

会议: ACL 2025 (Findings)
arXiv: 2506.01846
代码: 无
领域: NLP理解 / 计算语言学
关键词: 语码转换, 句法分析, 双语处理, 最小对实验, 跨语言泛化

一句话总结¶

本文通过大规模、多语言、跨现象的实验，首次系统性验证了"句法信息足以解释语码转换（code-switching）模式"这一语言学共识，仅用句法特征就能达到与双语人类相当的判断准确率，且学到的句法模式可泛化到未见过的语言对。

领域现状：语码转换（Code-Switching, CS）是双语者在句子中切换语言的自然现象，理论语言学文献中存在大量针对特定语言对和特定语法现象的个案研究（pointwise investigations），试图解释双语者为什么在句子的某些位置更倾向于切换语言。

现有痛点：虽然学界形成了一个广泛共识——CS 可以用参与语言的句法来解释，但这一结论缺乏大规模、多语言、跨现象的实验验证。现有研究大多聚焦于单一语言对或单一句法现象，无法形成全面的、可复现的定量结论。

核心矛盾：设计这样的实验面临一个关键挑战：如何确保预测系统仅使用句法信息，而不依赖词汇、语义或其他非句法线索。如果系统混入了其他信息，即使取得了好结果，也无法证明"句法足以解释 CS"这一命题。

本文目标：设计一个严格控制的大规模实验，验证仅凭句法信息能否区分自然的 CS 句子与人工构造的最小对（minimal pairs），并测试这种能力是否可跨语言泛化。

切入角度：作者构造了 CS 句子的最小对——每对句子在词汇内容上相同，仅在语言切换的位置上不同。通过这种控制，确保模型只能利用句法差异来做出判断。

核心 idea：通过最小对范式+纯句法特征编码，在大规模多语言数据上验证"句法足以解释 CS 模式"这一长期理论假设。

整个实验流程可分为三步：(1) 从多语言平行语料中自动构造大规模 CS 最小对数据集；(2) 用纯句法特征（依存树、词性标签等）编码 CS 句子，训练分类器区分自然 CS 与非自然 CS；(3) 在未见语言对上测试泛化能力，并与人类双语者判断进行对比。

最小对构造方法（Minimal Pair Construction）:
- 功能：生成控制词汇内容、仅句法位置不同的 CS 句子对
- 核心思路：给定一个双语句子对（原文+翻译+对齐），在不同句法边界处进行语言切换，生成一组最小对。自然 CS 位置来源于真实双语语料中的切换频率统计，非自然位置则是低频或未出现的切换点。通过这种方式避免了词汇和语义的干扰
- 设计动机：仅改变切换位置，确保分类器的判断完全基于句法结构差异
纯句法特征编码（Syntax-Only Feature Encoding）:
- 功能：将 CS 句子编码为纯句法表示，剥离所有词汇语义信息
- 核心思路：使用依存句法分析器对 CS 句子进行解析，提取依存关系类型、词性标签、切换点处的句法联系等特征。所有词汇形式被替换为句法角色标签，确保分类器无法利用词形信息
- 设计动机：严格控制信息源，避免分类器利用 n-gram 或词汇搭配等非句法信号
跨语言泛化测试（Cross-Lingual Generalization）:
- 功能：验证学到的句法模式是否具有语言无关性
- 核心思路：在一部分语言对上训练模型，在完全未见的语言对上测试，观察性能衰减程度。如果泛化效果良好，说明 CS 中的句法约束具有跨语言普适性
- 设计动机：回应理论语言学中关于 CS 约束是否具有普遍性的争论

采用标准的二分类交叉熵损失，对最小对进行"自然 vs. 非自然"分类。训练使用多语言混合数据，测试时分别在已见和未见语言对上评估。

评估设置	准确率	与人类对比	说明
已见语言对	~82%	≈人类水平	仅用句法特征
未见语言对	~78%	接近人类水平	跨语言泛化
人类双语者	~83%	—	基准上限
随机基线	50%	—	最小对二选一

严格的实验设计：通过最小对范式完美隔离了句法信息，这种方法论值得其他语言学验证型实验借鉴。传统研究往往在控制变量方面不够严格
理论验证的自动化：将一个理论语言学的假设转化为可自动化的大规模实验，跨越了理论与计算的鹊桥
跨语言普适性：泛化到未见语言对的能力暗示存在某种跨语言的"句法通用约束"，这对多语言 NLP 模型设计有启发——句法表示可能是一种有效的语言无关的中间表示