Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models¶

会议: ACL 2025
arXiv: 2505.18673
领域: LLM NLP / 多语言评估
关键词: 跨语言弱点, 束搜索, LLM仿真评估, 双语问答对, 语言亲缘性

一句话总结¶

提出基于束搜索和 LLM 仿真的自动化方法来高效发现多语言 LLM 的跨语言弱点，构建了覆盖 16 种语言的 6000+ 双语问答对数据集，揭示即使 GPT-4o 也存在超过 30% 的跨语言性能下降。

研究背景与动机¶

LLM 的多语言不一致性：LLM 在英语上表现优异，但切换到其他语言时性能显著下降，这种不一致是多语言 AI 的核心挑战
跨语言弱点的定义：给定多语言版本的同一问题，模型在英语上回答正确但在至少一种目标语言上回答错误
现有评估的不足：直接翻译英语问题往往无法暴露跨语言弱点（转化率几乎为零），需要更精细的方法来发现这些隐藏的性能差距
实际意义：识别跨语言弱点是提升 LLM 多语言能力的关键第一步，可指导有针对性的微调和数据增强

方法详解¶

整体框架¶

流程分为四步： 1. 从高质量英语数据集采样题目并翻译为目标语言，形成双语对 2. 对英语问题迭代施加扰动（perturbation），增加问题复杂度 3. 使用 LLM 仿真框架评估每个扰动后的双语对，计算仿真得分 4. 通过束搜索保留得分最高的双语对加入候选列表

关键设计¶

1. 扰动生成¶

给定英语问题 q^E 和一个错误答案 α^E，使用代理 LLM（GPT-4o-mini）生成语义无关但上下文合理的扰动 δq^E： - 扰动会嵌入受错误答案影响的模式，增加问题的认知复杂度 - 目标语言的扰动通过 Google Translate 翻译获得 - 语义一致性通过 LLM 语义检查保证

2. LLM 仿真评分¶

使用一组 LLM 集合 M 同时回答扰动后的英语和目标语言问题，计算仿真得分：

V(q^{E'}, q^{T'}) = (β̄^{E'})^γ - β̄^{T'}

β̄^{E'} 和 β̄^{T'} 分别是所有仿真模型在英文和目标语言上的平均准确率
γ > 1 的指数放大了高英文准确率的权重
得分高意味着："英文几乎都对，目标语言几乎都错"——成功暴露了跨语言弱点

3. 束搜索优化策略¶

包含阈值：仿真得分超过 θ_inc 的双语对直接加入候选列表
早停机制：若当前迭代最高得分超过潜力阈值 θ_pot，则扩展搜索深度到 d2；否则保持 d1 及时终止
冗余控制：若来自同一初始问题的双语对已有 r 个被选入，则丢弃该问题的其余后代

4. 优化目标¶

最小化目标语言准确率，同时约束英文准确率 ≥ 1-ε，并保证原始与扰动问题的语义相似度 ≥ θ。

实验关键数据¶

主实验¶

跨语言弱点识别效果：

生成了覆盖 16 种语言的 6000+ 双语问答对
在中文场景下，所有被测模型英文准确率接近 100%，但中文平均下降近 60%
即使 GPT-4o 也有近 30% 的中文准确率下降
Claude-3.5-sonnet 在大多数语言上也有超过 20% 的准确率损失

方法对比（转化率）：

语言	直接扰动(DP)	本文方法
中文	0.036	0.431
日文	0.071	0.594
法文	0.018	0.132
德文	0.027	0.323

直接翻译完全无法暴露弱点；本文方法转化率提升 10-80 倍

生成成本：大多数语言识别一个有效双语对成本低于 $0.05，但法语/西班牙语等与英语结构相近的语言成本更高

关键发现¶

语言亲缘性影响弱点共享：来自中文种子对的弱点在日文/韩文中保持更高的一致性；来自法文种子对的弱点在德语/西班牙语中更一致
相对亲缘得分（RAS）：定义了量化语言间亲缘关系的指标 D_{x,y}，揭示语言亲缘性越强，跨语言弱点越相似
弱点与主题域相关：低资源语言（阿姆哈拉语、阿拉伯语、约鲁巴语）在"科学与技术"领域错误更多；中文在"社会与文化"领域较弱
跨语言微调的迁移效应：用中文微调后日/韩提升更大（SFT/DPO均一致）；用法文微调后德语/西班牙语提升更大——证实语言亲缘性驱动知识迁移
嵌入空间分析：t-SNE 可视化显示同一语系的弱点在嵌入空间中聚类，余弦距离矩阵证实语系内距离远小于语系间

亮点与洞察¶

方法论贡献：将暴力搜索式的弱点发现问题转化为有引导的束搜索优化问题，大幅提升效率
仿真框架的灵活性：通过更换仿真模型集合 M，可以发现任意目标 LLM 的特定弱点
语言学洞察：不仅发现弱点，还深入分析了弱点与语言亲缘性、主题域的关系，为多语言改进提供了理论基础
实际应用价值：生成的弱点数据可直接用于增强预训练/指令微调数据集，或作为持续学习的目标数据

局限性¶

语言覆盖范围有限（16种），未涵盖极低资源语言或结构差异极大的语言
依赖 LLM 进行翻译和语义检查，细微的文化语境或习语差异可能引入偏差
迭代扰动策略对简短问题的敏感度较低，可能遗漏在简洁提示中暴露的弱点
成本对高资源/与英语相近的语言显著更高

评分¶

创新性: ★★★★☆ — 束搜索 + LLM 仿真的自动化弱点发现框架新颖实用
实用性: ★★★★★ — 数据集可直接用于多语言改进，方法可适配任何目标 LLM
实验充分度: ★★★★★ — 10个模型、16种语言、多维分析（亲缘性、主题域、微调迁移、嵌入可视化）
写作质量: ★★★★☆ — 结构清晰，公式完整，但部分符号密度较高