One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations¶
会议: ICLR 2026
arXiv: 2603.08869
代码: 无
领域: LLM可解释性/多语言
关键词: Sparse Autoencoders, 文字不变性, 塞尔维亚语双文字, 语义表示, 可解释性
一句话总结¶
利用塞尔维亚语双文字系统(拉丁/西里尔文)作为天然控制实验,探究Sparse Autoencoders(SAE)学到的特征是否捕获了超越表面token化的抽象语义:发现跨文字的相同句子激活高度重叠的SAE特征(Jaccard~0.58),且切换文字造成的表征差异小于同文字内的改写差异,且此不变性随模型规模增强,表明SAE特征确实捕获了超越正字法的语义结构。
研究背景与动机¶
领域现状:SAE(Sparse Autoencoders)已成为机制可解释性的关键工具,可将神经网络激活分解为稀疏、可解释的特征。但一个基本问题未解答:SAE学到的特征到底代表抽象语义,还是绑定于文本的具体书写形式?
现有痛点:跨语言表征研究(多语BERT/XLM-R)虽然展示了跨语言迁移,但不同语言存在词汇、语法、文化差异,难以严格控制变量。Hindi-Urdu的跨文字研究因文字映射不完美而引入噪声。
核心矛盾:需要一个理想的控制实验——保持语义完全不变,只改变书写形式,同时确保token化完全不同。这样才能干净地测试SAE特征是否真正捕获语义。
切入角度:塞尔维亚语是极少数拥有活跃双文字系统的语言——拉丁文和西里尔文在日常生活中交替使用,存在确定性的无损字符映射。关键是:两种文字被tokenizer完全不同地分词,共享零个token。这是完美的控制实验。
核心 idea:塞尔维亚语双文字提供自然控制实验,证明了SAE特征捕获的是超越表面token化的抽象语义表征。
方法详解¶
整体框架¶
输入:30个句子三元组(原始/改写/随机) x 3种语言变体(英文/塞尔维亚拉丁/塞尔维亚西里尔) = 270个句子。使用Gemma模型族(270M-27B)和Gemma Scope 2 SAE(65536个特征)。输出:跨14种对比类型的SAE特征重叠度分析。
关键设计¶
-
塞尔维亚语双文字作为控制实验:
- 功能:创造保持语义恒定同时改变所有表面特征(token化)的对比条件
- 核心思路:同一句子的拉丁文版和西里尔文版语义完全相同,但tokenizer产生完全不同的token序列(零共享token)。LaBSE验证跨文字句子语义相似度>0.95
- 设计动机:消除了跨语言研究中的混杂因素(词汇差异/语法差异/文化差异)。确定性映射保证零语义变化
-
SAE特征提取管线:
- 功能:提取每个句子激活的SAE特征集合
- 核心思路:句子 -> tokenizer -> Gemma前向传播 -> 取目标层最后token的hidden state -> SAE编码器得到65536维激活 -> JumpReLU阈值(tau=0.1) -> 活跃特征集 \(F(s) = \{i : a_i > \tau\}\)
- 设计动机:last-token pooling比mean pooling更稳健(实验验证)。固定阈值tau=0.1对应JumpReLU的标准设置
-
14种对比类型的系统设计:
- 功能:系统地测试语义相似性vs文字不变性vs随机基线
- 核心思路:Jaccard相似度 \(J(s_1, s_2) = |F(s_1) \cap F(s_2)| / |F(s_1) \cup F(s_2)|\)。对比维度包括:
- 基线:同文字内原始vs改写(语义相似),原始vs随机(语义无关)
- 核心测试:跨文字原始(文字变化),跨文字改写(文字+措辞变化)
- 随机基线:跨文字随机,跨语言随机
- 设计动机:多层次对比能区分"文字不变性"是否真由语义驱动而非其他混杂因素
评估指标¶
- Jaccard相似度:0(无重叠)到1(完全相同)
- 每种对比类型计算30个句子对的平均值
- 跨所有模型和层报告平均值
实验关键数据¶
主实验:跨文字表征不变性(所有模型平均)¶
| 对比类型 | 平均Jaccard相似度 |
|---|---|
| 跨文字原始(同句不同文字) | 0.58 |
| 跨文字改写(不同改写不同文字) | 0.59 |
| 跨文字交叉改写 | 0.47 |
| 跨文字随机 | 0.28 |
| 跨语言随机 | 0.19 |
消融:模型规模效应¶
| 模型 | 跨文字原始 | 跨文字随机 | 差值(信号-噪声) |
|---|---|---|---|
| Gemma-270M | 0.501 | 0.421 | 0.080 |
| Gemma-1B | 0.537 | 0.324 | 0.213 |
| Gemma-4B | 0.571 | 0.253 | 0.318 |
| Gemma-12B | 0.624 | 0.233 | 0.391 |
| Gemma-27B | 0.649 | 0.211 | 0.438 |
关键发现¶
- 文字变化 < 改写变化:跨文字原始(0.58)高于同文字改写(0.54),说明改变文字比改变措辞造成更小的表征差异——SAE特征优先编码语义而非正字法
- 语义层次清晰:跨文字原始(0.58) >> 跨文字交叉改写(0.47) >> 跨文字随机(0.28) >> 跨语言随机(0.19),完美符合语义相似度预期
- 规模效应显著:跨文字原始从270M的0.50提升到27B的0.65,同时随机基线从0.42降到0.21——更大模型发展出更robust的文字无关表征
- 反驳记忆假说:跨文字交叉改写(拉丁原始vs西里尔改写)在训练数据中几乎不会共现,但仍有0.47的overlap,说明是真正的语义对齐而非记忆
亮点与洞察¶
- 塞尔维亚语双文字作为通用评估范式:这是一个极其优雅的控制实验设计——利用自然语言的特殊性质消除了所有混杂变量。可以成为评估任何表征学习方法是否捕获抽象语义的标准测试
- "文字变化<改写变化"是非常反直觉且有力的发现:完全不同的token序列却比同文字的改写更相似,有力证明SAE特征超越了token层面
- 规模效应的双向性:大模型不仅增加了跨文字相似度(真正的语义对齐),还降低了随机基线(更好的特征稀疏性)——两个方向同时改善
- 方法极简但洞察深刻:不需要复杂的模型或训练,仅靠精心设计的对比实验就得出了关于LLM表征本质的重要结论
局限与展望¶
- 仅测试Gemma模型族,其他架构(LLaMA/GPT)和不同训练方法的SAE可能不同
- 仅30个句子三元组,规模和领域覆盖有限
- 仅测量特征重叠,未建立因果关系——需要activation patching/feature ablation验证共享特征是否真正驱动跨文字理解
- 塞尔维亚语的确定性映射是理想情况,其他多文字语言(日文汉字/假名)映射更复杂
- 识别哪些具体的SAE特征最具文字不变性可能揭示可解释的语义锚点
相关工作与启发¶
- vs 多语BERT研究(Pires et al.): 多语BERT的跨语言迁移可能受词汇重叠影响。塞尔维亚双文字完全消除了这个混杂因素
- vs Hindi-Urdu研究: Hindi-Urdu文字映射不完美(词汇差异/文化差异)。塞尔维亚的确定性映射提供了更干净的控制
- vs SAE可解释性研究(Bricken/Cunningham): 之前的SAE研究主要在单语言英文上。本文首次从跨文字角度评估SAE特征的语义抽象性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 塞尔维亚双文字作为控制实验的idea极其优雅,是这类研究的理想测试
- 实验充分度: ⭐⭐⭐ 5个模型规模覆盖充分,但数据集太小(30句)且仅一个模型族
- 写作质量: ⭐⭐⭐⭐⭐ 实验设计清晰,结论推导严谨
- 价值: ⭐⭐⭐⭐ 对理解LLM表征本质有重要贡献,提出了可复用的评估范式
相关论文¶
- [ACL 2026] Multilingual Language Models Encode Script Over Linguistic Structure
- [ICLR 2026] LLM Unlearning with LLM Beliefs
- [ICLR 2026] COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics
- [AAAI 2026] Partially Shared Concept Bottleneck Models
- [CVPR 2026] Rethinking Concept Bottleneck Models: From Pitfalls to Solutions