Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model¶
会议: ACL 2025 (Long Paper)
arXiv: 2501.05122
代码: https://gregor-ge.github.io/Centurio
领域: 多模态VLM
关键词: 多语言VLM, 训练数据分布, LVLM, 多语言OCR, 100语言
一句话总结¶
系统研究多语言LVLM训练策略,发现可以同时支持100种语言、只需25-50%非英文数据即可大幅提升多语言性能且不损英语性能,最终训练的Centurio在14个任务56种语言上达到SOTA。
背景与动机¶
当前大多数LVLM仅用英语数据训练,导致三大问题:(1)无法理解非英语指令;(2)无法处理图像中的非英语文字;(3)语言忠实度差(无法用目标语言回复)。已有多语言LVLM工作只是临时添加多语言数据,缺乏对最优训练数据组合的系统研究。核心问题是:在固定训练预算下,如何在不同语言间分配数据?
核心问题¶
四个递进的研究问题: 1. RQ1: 训练多少种语言不会损害英语性能? 2. RQ2: 指令微调阶段最优的英语vs多语言数据比例? 3. RQ3: 预训练阶段最优的语言分布? 4. RQ4: 如何提升多语言图像文本理解能力?
方法详解¶
整体框架¶
采用LLaVA架构(SigLIP SO400/384编码器 + 2层MLP投影器 + Phi 3.5/Llama 3/Qwen 2.5/Aya-Expanse作为LLM)。两阶段训练:预训练(图像描述,1.3M ShareGPT4V数据)+ 指令微调(0.77M LLaVA-Next数据)。通过NLLB机器翻译将英语数据翻译为多语言版本。评估覆盖13个任务、43种语言,按资源量分5个层级(T1最低资源~T5最高资源)。
关键设计¶
-
大规模语言无损扩展(RQ1): 将语言从7种逐步增加到100种(T5→T5-T4→...→L100),50%数据保持英语,另50%均匀分配给其他语言。惊人发现:不存在"多语言诅咒"!从7增加到100种语言,新语言性能大幅提升,已有语言几乎不降。语言忠实度改善最为显著。
-
数据比例优化(RQ2&3): 指令微调中测试英语占比E∈{1,10,25,50,75,90}%。发现25-50%英语数据是最佳平衡点——低资源语言受益于更多多语言数据,高资源语言受益于更多英语数据,50%是最稳健的选择。预训练阶段也是50%英语最优,但容忍度更高(1%英语也不掉太多)。
-
多语言OCR数据增强(RQ4): 提出SMPQA基准测试多语言图像文本理解(11种语言,7种文字系统)。使用Synthdog方法生成合成多语言OCR训练数据。关键发现:解冻图像编码器进行微调是关键;拉丁文系语言提升很快,但非拉丁文字系统仍然困难,即使将预算偏向非拉丁也效果有限。
-
Centurio最终模型: 综合所有发现,使用Aya-Expanse/Qwen 2.5作为LLM骨干,图像分块采用Shi et al.的特征维度拼接方法(token数量不变),训练100种语言LVLM。
损失函数 / 训练策略¶
- 预训练和指令微调均冻结图像编码器,仅更新MLP和LLM(使用LoRA)
- OCR训练阶段解冻图像编码器
- 机器翻译用NLLB-200-distilled-1.3B
实验关键数据¶
| 对比模型 | 英语平均 | 多语言平均 | T1(最低资源) | T2 | T5(高资源) |
|---|---|---|---|---|---|
| Centurio Qwen | 66.6 | 47.1 | 38.1 | 51.0 | 50.9 |
| Centurio Aya | 60.6 | 44.7 | 35.1 | 46.4 | 48.3 |
| InternVL 2.5 8B | 64.4 | 39.2 | 29.9 | 37.0 | 50.5 |
| Qwen2-VL 7B | 56.8 | 40.4 | 30.6 | 36.8 | 48.0 |
| Pangea | 59.8 | 43.6 | 38.5 | 38.6 | 49.9 |
RQ关键数字: - 100种语言训练 vs 仅英语:T1 +4.9, T2 +2.2, 英语仅-1.0 - 50%英语 vs 90%英语(指令微调):T1 +3.4, T2 +1.4, 英语-2.2 - 有预训练 vs 无预训练:几乎所有层级提升,特别是T2 +6.9
消融实验要点¶
- 语言数量: 从7→100种语言,英语性能波动<2%,各层级多语言性能持续提升
- 数据比例: 指令微调中25-50%英语最优;极端值(1%或90%英语)都不好
- 预训练比例: 预训练对多语言数据更宽容,1%英语也能保持性能
- OCR数据: 合成OCR数据对拉丁文字系统效果显著,对非拉丁文字系统提升有限
- 图像编码器: 解冻图像编码器对OCR任务至关重要(解冻 vs 冻结差距大)
- LLM骨干泛化: Llama 3实验结果与Phi 3.5趋势一致
亮点¶
- 系统性极强: 四个RQ层层递进,控制变量实验设计严谨,每个发现都有Llama 3交叉验证
- 颠覆性发现: "多语言诅咒"在LVLM中不成立——可以同时训练100种语言且几乎不损英语
- 实用指南: 提供了非常明确的实操建议(50%英语、100种语言、加OCR数据、解冻编码器)
- SMPQA基准: 新提出的多语言OCR评估基准,填补了该方向的空白
局限性 / 可改进方向¶
- 机器翻译质量有限,特别是低资源语言;用高质量人工翻译可能效果更好
- 非拉丁文字系统的图像文本理解仍然差距大,需要量级更大的OCR训练数据
- 基于Phi 3.5(3.8B)的实验规模较小,更大模型的结论可能不同
- 图像分辨率固定384px,限制了OCR能力(MTVQA等需要更高分辨率的评测表现不佳)
- 未探索自然存在的多语言数据(非翻译数据)的影响
与相关工作的对比¶
- vs Pangea (Yue et al.): 同期工作也发现20-80%英语数据都可以,但Centurio的系统性分析更全面(4个RQ、5个语言层级),在低资源语言上Centurio表现更好
- vs InternVL 2.5 / Qwen2-VL: 这些模型在英语和高资源语言上有竞争力,但在低资源语言T1/T2上明显弱于Centurio
- vs Maya / Parrot: 早期多语言LVLM只支持少数语言,Centurio扩展到100种且证明了可扩展性
启发与关联¶
- 50%英语+50%机翻数据的策略可以迁移到其他多模态任务(如视频理解、3D理解)
- "多语言诅咒"不成立的发现对所有多模态模型训练有参考价值
- 合成OCR数据的有效性启发了数据增强方向的可能性
评分¶
- 新颖性: ⭐⭐⭐⭐ 虽然方法本身不新,但系统性实验和颠覆性发现非常有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 13个任务、43种语言、5个资源层级、4个RQ、Llama 3交叉验证
- 写作质量: ⭐⭐⭐⭐⭐ 结构极佳,RQ层层递进,表格信息密度高
- 价值: ⭐⭐⭐⭐ 为多语言LVLM训练提供了清晰的实操指南和基准