Multilingual Language Models Encode Script Over Linguistic Structure¶

会议: ACL 2026
arXiv: 2604.05090
代码: GitHub
领域: 人类理解 / 多语言可解释性
关键词: 多语言表示, 书写系统, 正字法, 语言关联神经元, 稀疏自编码器

一句话总结¶

本文通过 LAPE 指标和稀疏自编码器系统分析多语言 LM 中的语言关联单元，发现这些单元主要由正字法（书写系统）驱动而非抽象语言结构：罗马化转写激活几乎完全不重叠的神经元集合，词序打乱影响甚微，类型学信息仅在深层逐渐可访问，因果干预表明功能重要性与表面形式不变性相关。

研究背景与动机¶

领域现状：多语言语言模型（如 Llama、Gemma）将多种语言的表示压缩到共享参数空间中，但这种内部组织的本质仍不明确——是基于抽象语言身份还是表面形式线索。

现有痛点：(1) 已有工作（Tang et al., 2024）通过 LAPE 指标定位了语言关联神经元并证明可以因果操控，但未回答这些神经元到底编码了什么语言属性；(2) "语际语"（interlingua）假说认为多语言模型形成统一的语言无关表示空间，但直接证据不足；(3) 双语认知研究表明理解和产出可共享语义表示但分离表面加工，LM 中是否存在类似现象未知。

核心矛盾：语言关联单元的存在已被确认，但其编码的是抽象语言身份还是正字法等表面线索？

本文目标：系统性回答四个研究问题：(i) 语言 vs 书写系统——语言关联单元编码什么？(ii) 结构扰动鲁棒性——词序打乱如何影响？(iii) 类型学对齐——与谱系、音韵、句法特征的关系？(iv) 层级组织——这些属性如何随深度变化？

切入角度：设计对照实验——罗马化转写（改变书写系统保持内容不变）和词序打乱（改变结构保持表面形式不变）——分离正字法和语言结构的贡献。

核心 idea：多语言 LM 围绕表面形式（书写系统）组织表示，语言抽象逐层涌现但永远不会塌缩为统一的语际语。

方法详解¶

整体框架¶

在 Llama-3.2-1B、Llama-3-8B、Gemma-2-2B、Gemma-2-9B 四个模型上，分析跨拉丁、西里尔、天城体、阿拉伯-波斯、表意文字等书写系统的语言。使用 LAPE（Language Activation Probability Entropy）定位原始神经元级别的语言关联单元，使用 SAE-LAPE 在稀疏自编码器的潜在空间中定位语言关联特征。通过罗马化实验、词序打乱实验、类型学探测和因果干预四类实验回答研究问题。

关键设计¶

罗马化对照实验:
- 功能：分离书写系统和语言身份对语言关联单元的贡献
- 核心思路：对 FLORES+ 数据集中的非拉丁语言，用 ICU Transliterator 生成罗马化版本（含/不含变音符号），分别用 LAPE 识别语言关联单元，通过 Jaccard 相似度衡量原始文字和罗马化文字激活的单元重叠度。结果：印地语原始文字、罗马化（含变音符号）、罗马化（不含变音符号）激活几乎完全不相交的神经元集合
- 设计动机：如果语言关联单元编码抽象语言身份，它们应在书写系统变化下保持稳定；如果主要编码正字法，则会因书写系统改变而重组
词序打乱实验:
- 功能：测试语言关联单元对句法结构的依赖程度
- 核心思路：对评估语料进行词级随机打乱，重新运行 SAE-LAPE 识别语言关联单元，通过 Jaccard 相似度衡量打乱前后的重叠度。结果：大多数语言保留了大量语言关联单元（重叠度 >0.7），尤其是使用独特书写系统的语言（中文、日文、泰文）稳定性最高
- 设计动机：与罗马化的强扰动形成对照——如果书写系统变化导致巨变但词序变化几乎无影响，则证实表面形式优先于结构
类型学探测与因果干预:
- 功能：检验深层是否编码了超越表面形式的语言学结构
- 核心思路：用线性探针对 lang2vec 类型学特征（谱系、音韵、句法）进行解码。发现：跨书写系统不变的"重叠"神经元子集编码了最强的类型学信号；谱系特征从浅层即可解码，音韵特征仅在最深层涌现。因果干预表明：书写系统不变的神经元在被消融后仅导致温和的困惑度变化，而书写系统特异的神经元消融导致灾难性退化（PPL 增大 7.74 倍），证实后者锚定了语言身份和表面实现
- 设计动机：探测和干预的结合区分了"表征可访问性"和"功能必要性"——某信息可被探测到不等于它对生成是必要的

损失函数 / 训练策略¶

本文为分析性工作，无训练。使用预训练的 Top-K SAE（Llama 系列）和 JumpReLU SAE（Gemma 系列），聚焦 MLP 子层激活。

实验关键数据¶

主实验¶

罗马化后语言关联单元重叠度（Jaccard 相似度，Llama-3.2-1B）

语言	原始 vs 罗马化 (原始神经元)	原始 vs 罗马化 (SAE特征)	罗马化 vs 英语
印地语	~0.05	~0.02	~0.00
中文	~0.05	~0.03	~0.00
俄语	~0.08	~0.04	~0.00
西班牙语	~0.40	~0.30	~0.05

因果干预：跨语言均值替换（Llama-3.2-1B）

语言	神经元集合	PPL ratio (target)	PPL ratio (random)
English	overlap	0.95	0.99
English	only-native	1.50	0.96
Hindi	overlap	1.05	0.98
Hindi	only-native	0.31	0.97

消融实验¶

词序打乱后单元稳定性（Jaccard 相似度）

语言类型	原始神经元重叠度	SAE特征重叠度
独特书写系统（中日泰韩）	>0.70	>0.70
拉丁书写系统语言	~0.60	~0.40-0.60
西里尔书写系统语言	~0.65	~0.65

关键发现¶

罗马化导致语言关联单元几乎完全重组（Jaccard < 0.1），证实正字法是主要驱动因素
罗马化后的表示既不与原始书写系统对齐，也不与英语对齐，形成孤立的第三子空间
词序打乱仅导致轻微的单元变化，表明语言关联单元依赖词汇统计而非句法结构
跨书写系统不变的神经元编码最强的类型学信号；谱系特征浅层可解码，音韵特征深层涌现
因果干预中，书写系统特异神经元消融导致灾难性退化（语言切换），而不变神经元消融影响温和
上述模式在 1B-9B 规模的 Llama 和 Gemma 模型上一致复现

亮点与洞察¶

实验设计极为精巧：罗马化改变表面保持内容，词序打乱改变结构保持表面，两者正交对照干净利落地分离了正字法和语言结构的贡献
"容量碎片化"概念有深远意义——模型为同一语言的不同书写变体分配独立的内部特征，浪费了表示容量。这对多语言模型的效率优化有直接启示
区分"可探测性"和"功能必要性"是重要的方法论贡献——很多可解释性工作止步于探测，本文通过因果干预进一步验证

局限与展望¶

分析聚焦 MLP 子层，未覆盖注意力头中的语言关联模式
罗马化依赖 ICU Transliterator，某些语言的转写质量可能影响结论
仅分析了 4 个模型家族，对其他架构（如 Mistral、Qwen）的适用性未知
未探索如何利用发现来改善多语言模型——例如通过显式对齐减少容量碎片化

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性回答"语言关联单元编码什么"，实验设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 4个模型 × 多种语言 × 探测+干预+对照，极为全面
写作质量: ⭐⭐⭐⭐⭐ 研究问题清晰，逻辑链条紧密，结论有力
价值: ⭐⭐⭐⭐ 对多语言模型设计和可解释性研究有重要启示