One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations¶

会议: ICLR 2026
arXiv: 2603.08869
代码: 无
领域: LLM可解释性/多语言
关键词: Sparse Autoencoders, 文字不变性, 塞尔维亚语双文字, 语义表示, 可解释性

一句话总结¶

利用塞尔维亚语双文字系统(拉丁/西里尔文)作为天然控制实验，探究Sparse Autoencoders(SAE)学到的特征是否捕获了超越表面token化的抽象语义：发现跨文字的相同句子激活高度重叠的SAE特征(Jaccard~0.58)，且切换文字造成的表征差异小于同文字内的改写差异，且此不变性随模型规模增强，表明SAE特征确实捕获了超越正字法的语义结构。

研究背景与动机¶

领域现状：SAE(Sparse Autoencoders)已成为机制可解释性的关键工具，可将神经网络激活分解为稀疏、可解释的特征。但一个基本问题未解答：SAE学到的特征到底代表抽象语义，还是绑定于文本的具体书写形式？

现有痛点：跨语言表征研究(多语BERT/XLM-R)虽然展示了跨语言迁移，但不同语言存在词汇、语法、文化差异，难以严格控制变量。Hindi-Urdu的跨文字研究因文字映射不完美而引入噪声。

核心矛盾：需要一个理想的控制实验——保持语义完全不变，只改变书写形式，同时确保token化完全不同。这样才能干净地测试SAE特征是否真正捕获语义。

切入角度：塞尔维亚语是极少数拥有活跃双文字系统的语言——拉丁文和西里尔文在日常生活中交替使用，存在确定性的无损字符映射。关键是：两种文字被tokenizer完全不同地分词，共享零个token。这是完美的控制实验。

核心 idea：塞尔维亚语双文字提供自然控制实验，证明了SAE特征捕获的是超越表面token化的抽象语义表征。

方法详解¶

整体框架¶

输入：30个句子三元组(原始/改写/随机) x 3种语言变体(英文/塞尔维亚拉丁/塞尔维亚西里尔) = 270个句子。使用Gemma模型族(270M-27B)和Gemma Scope 2 SAE(65536个特征)。输出：跨14种对比类型的SAE特征重叠度分析。

关键设计¶

塞尔维亚语双文字作为控制实验：
- 功能：创造保持语义恒定同时改变所有表面特征(token化)的对比条件
- 核心思路：同一句子的拉丁文版和西里尔文版语义完全相同，但tokenizer产生完全不同的token序列(零共享token)。LaBSE验证跨文字句子语义相似度>0.95
- 设计动机：消除了跨语言研究中的混杂因素(词汇差异/语法差异/文化差异)。确定性映射保证零语义变化
SAE特征提取管线：
- 功能：提取每个句子激活的SAE特征集合
- 核心思路：句子 -> tokenizer -> Gemma前向传播 -> 取目标层最后token的hidden state -> SAE编码器得到65536维激活 -> JumpReLU阈值(tau=0.1) -> 活跃特征集 \(F(s) = \{i : a_i > \tau\}\)
- 设计动机：last-token pooling比mean pooling更稳健(实验验证)。固定阈值tau=0.1对应JumpReLU的标准设置
14种对比类型的系统设计：
- 功能：系统地测试语义相似性vs文字不变性vs随机基线
- 核心思路：Jaccard相似度 \(J(s_1, s_2) = |F(s_1) \cap F(s_2)| / |F(s_1) \cup F(s_2)|\)。对比维度包括：
  - 基线：同文字内原始vs改写(语义相似)，原始vs随机(语义无关)
  - 核心测试：跨文字原始(文字变化），跨文字改写(文字+措辞变化)
  - 随机基线：跨文字随机，跨语言随机
- 设计动机：多层次对比能区分"文字不变性"是否真由语义驱动而非其他混杂因素

评估指标¶

Jaccard相似度：0(无重叠)到1(完全相同)
每种对比类型计算30个句子对的平均值
跨所有模型和层报告平均值

实验关键数据¶

主实验：跨文字表征不变性(所有模型平均)¶

对比类型	平均Jaccard相似度
跨文字原始(同句不同文字)	0.58
跨文字改写(不同改写不同文字)	0.59
跨文字交叉改写	0.47
跨文字随机	0.28
跨语言随机	0.19

消融：模型规模效应¶

模型	跨文字原始	跨文字随机	差值(信号-噪声)
Gemma-270M	0.501	0.421	0.080
Gemma-1B	0.537	0.324	0.213
Gemma-4B	0.571	0.253	0.318
Gemma-12B	0.624	0.233	0.391
Gemma-27B	0.649	0.211	0.438

关键发现¶

文字变化 < 改写变化：跨文字原始(0.58)高于同文字改写(0.54)，说明改变文字比改变措辞造成更小的表征差异——SAE特征优先编码语义而非正字法
语义层次清晰：跨文字原始(0.58) >> 跨文字交叉改写(0.47) >> 跨文字随机(0.28) >> 跨语言随机(0.19)，完美符合语义相似度预期
规模效应显著：跨文字原始从270M的0.50提升到27B的0.65，同时随机基线从0.42降到0.21——更大模型发展出更robust的文字无关表征
反驳记忆假说：跨文字交叉改写(拉丁原始vs西里尔改写)在训练数据中几乎不会共现，但仍有0.47的overlap，说明是真正的语义对齐而非记忆

亮点与洞察¶

塞尔维亚语双文字作为通用评估范式：这是一个极其优雅的控制实验设计——利用自然语言的特殊性质消除了所有混杂变量。可以成为评估任何表征学习方法是否捕获抽象语义的标准测试
"文字变化<改写变化"是非常反直觉且有力的发现：完全不同的token序列却比同文字的改写更相似，有力证明SAE特征超越了token层面
规模效应的双向性：大模型不仅增加了跨文字相似度(真正的语义对齐)，还降低了随机基线(更好的特征稀疏性)——两个方向同时改善
方法极简但洞察深刻：不需要复杂的模型或训练，仅靠精心设计的对比实验就得出了关于LLM表征本质的重要结论

局限与展望¶

仅测试Gemma模型族，其他架构(LLaMA/GPT)和不同训练方法的SAE可能不同
仅30个句子三元组，规模和领域覆盖有限
仅测量特征重叠，未建立因果关系——需要activation patching/feature ablation验证共享特征是否真正驱动跨文字理解
塞尔维亚语的确定性映射是理想情况，其他多文字语言(日文汉字/假名)映射更复杂
识别哪些具体的SAE特征最具文字不变性可能揭示可解释的语义锚点

评分¶

新颖性: ⭐⭐⭐⭐⭐ 塞尔维亚双文字作为控制实验的idea极其优雅，是这类研究的理想测试
实验充分度: ⭐⭐⭐ 5个模型规模覆盖充分，但数据集太小(30句)且仅一个模型族
写作质量: ⭐⭐⭐⭐⭐ 实验设计清晰，结论推导严谨
价值: ⭐⭐⭐⭐ 对理解LLM表征本质有重要贡献，提出了可复用的评估范式