Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models¶
会议: ACL 2025
arXiv: 2505.18673
领域: LLM NLP / 多语言评估
关键词: 跨语言弱点, 束搜索, LLM仿真评估, 双语问答对, 语言亲缘性
一句话总结¶
提出基于束搜索和 LLM 仿真的自动化方法来高效发现多语言 LLM 的跨语言弱点,构建了覆盖 16 种语言的 6000+ 双语问答对数据集,揭示即使 GPT-4o 也存在超过 30% 的跨语言性能下降。
研究背景与动机¶
- LLM 的多语言不一致性:LLM 在英语上表现优异,但切换到其他语言时性能显著下降,这种不一致是多语言 AI 的核心挑战
- 跨语言弱点的定义:给定多语言版本的同一问题,模型在英语上回答正确但在至少一种目标语言上回答错误
- 现有评估的不足:直接翻译英语问题往往无法暴露跨语言弱点(转化率几乎为零),需要更精细的方法来发现这些隐藏的性能差距
- 实际意义:识别跨语言弱点是提升 LLM 多语言能力的关键第一步,可指导有针对性的微调和数据增强
方法详解¶
整体框架¶
流程分为四步: 1. 从高质量英语数据集采样题目并翻译为目标语言,形成双语对 2. 对英语问题迭代施加扰动(perturbation),增加问题复杂度 3. 使用 LLM 仿真框架评估每个扰动后的双语对,计算仿真得分 4. 通过束搜索保留得分最高的双语对加入候选列表
关键设计¶
1. 扰动生成¶
给定英语问题 q^E 和一个错误答案 α^E,使用代理 LLM(GPT-4o-mini)生成语义无关但上下文合理的扰动 δq^E: - 扰动会嵌入受错误答案影响的模式,增加问题的认知复杂度 - 目标语言的扰动通过 Google Translate 翻译获得 - 语义一致性通过 LLM 语义检查保证
2. LLM 仿真评分¶
使用一组 LLM 集合 M 同时回答扰动后的英语和目标语言问题,计算仿真得分:
V(q^{E'}, q^{T'}) = (β̄^{E'})^γ - β̄^{T'}
- β̄^{E'} 和 β̄^{T'} 分别是所有仿真模型在英文和目标语言上的平均准确率
- γ > 1 的指数放大了高英文准确率的权重
- 得分高意味着:"英文几乎都对,目标语言几乎都错"——成功暴露了跨语言弱点
3. 束搜索优化策略¶
- 包含阈值:仿真得分超过 θ_inc 的双语对直接加入候选列表
- 早停机制:若当前迭代最高得分超过潜力阈值 θ_pot,则扩展搜索深度到 d2;否则保持 d1 及时终止
- 冗余控制:若来自同一初始问题的双语对已有 r 个被选入,则丢弃该问题的其余后代
4. 优化目标¶
最小化目标语言准确率,同时约束英文准确率 ≥ 1-ε,并保证原始与扰动问题的语义相似度 ≥ θ。
实验关键数据¶
主实验¶
跨语言弱点识别效果:
- 生成了覆盖 16 种语言的 6000+ 双语问答对
- 在中文场景下,所有被测模型英文准确率接近 100%,但中文平均下降近 60%
- 即使 GPT-4o 也有近 30% 的中文准确率下降
- Claude-3.5-sonnet 在大多数语言上也有超过 20% 的准确率损失
方法对比(转化率):
| 语言 | 无扰动(NP) | 直接扰动(DP) | 本文方法 |
|---|---|---|---|
| 中文 | 0.000 | 0.036 | 0.431 |
| 日文 | 0.000 | 0.071 | 0.594 |
| 法文 | 0.000 | 0.018 | 0.132 |
| 德文 | 0.000 | 0.027 | 0.323 |
- 直接翻译完全无法暴露弱点;本文方法转化率提升 10-80 倍
生成成本:大多数语言识别一个有效双语对成本低于 $0.05,但法语/西班牙语等与英语结构相近的语言成本更高
关键发现¶
- 语言亲缘性影响弱点共享:来自中文种子对的弱点在日文/韩文中保持更高的一致性;来自法文种子对的弱点在德语/西班牙语中更一致
- 相对亲缘得分(RAS):定义了量化语言间亲缘关系的指标 D_{x,y},揭示语言亲缘性越强,跨语言弱点越相似
- 弱点与主题域相关:低资源语言(阿姆哈拉语、阿拉伯语、约鲁巴语)在"科学与技术"领域错误更多;中文在"社会与文化"领域较弱
- 跨语言微调的迁移效应:用中文微调后日/韩提升更大(SFT/DPO均一致);用法文微调后德语/西班牙语提升更大——证实语言亲缘性驱动知识迁移
- 嵌入空间分析:t-SNE 可视化显示同一语系的弱点在嵌入空间中聚类,余弦距离矩阵证实语系内距离远小于语系间
亮点与洞察¶
- 方法论贡献:将暴力搜索式的弱点发现问题转化为有引导的束搜索优化问题,大幅提升效率
- 仿真框架的灵活性:通过更换仿真模型集合 M,可以发现任意目标 LLM 的特定弱点
- 语言学洞察:不仅发现弱点,还深入分析了弱点与语言亲缘性、主题域的关系,为多语言改进提供了理论基础
- 实际应用价值:生成的弱点数据可直接用于增强预训练/指令微调数据集,或作为持续学习的目标数据
局限性¶
- 语言覆盖范围有限(16种),未涵盖极低资源语言或结构差异极大的语言
- 依赖 LLM 进行翻译和语义检查,细微的文化语境或习语差异可能引入偏差
- 迭代扰动策略对简短问题的敏感度较低,可能遗漏在简洁提示中暴露的弱点
- 成本对高资源/与英语相近的语言显著更高
相关工作¶
- 多语言 LLM 评估:MEGA、XTREME-UP 等多语言基准——本文方法是主动发现弱点而非被动评估
- 对抗样本生成:TextFooler、BERT-Attack 等——本文的扰动是保语义的复杂化,非对抗攻击
- 跨语言迁移:mBERT、XLM-R 等预训练模型的跨语言研究——本文揭示了零样本跨语言的失败模式
- LLM 可靠性:TruthfulQA、自一致性评估——本文聚焦于语言间的一致性差距
评分¶
- 创新性: ★★★★☆ — 束搜索 + LLM 仿真的自动化弱点发现框架新颖实用
- 实用性: ★★★★★ — 数据集可直接用于多语言改进,方法可适配任何目标 LLM
- 实验充分度: ★★★★★ — 10个模型、16种语言、多维分析(亲缘性、主题域、微调迁移、嵌入可视化)
- 写作质量: ★★★★☆ — 结构清晰,公式完整,但部分符号密度较高