跳转至

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

会议: ACL 2025 (Long Paper)
arXiv: 2501.05122
代码: https://gregor-ge.github.io/Centurio
领域: 多模态VLM
关键词: 多语言VLM, 训练数据分布, LVLM, 多语言OCR, 100语言

一句话总结

系统研究多语言LVLM训练策略,发现可以同时支持100种语言、只需25-50%非英文数据即可大幅提升多语言性能且不损英语性能,最终训练的Centurio在14个任务56种语言上达到SOTA。

背景与动机

当前大多数LVLM仅用英语数据训练,导致三大问题:(1)无法理解非英语指令;(2)无法处理图像中的非英语文字;(3)语言忠实度差(无法用目标语言回复)。已有多语言LVLM工作只是临时添加多语言数据,缺乏对最优训练数据组合的系统研究。核心问题是:在固定训练预算下,如何在不同语言间分配数据?

核心问题

四个递进的研究问题: 1. RQ1: 训练多少种语言不会损害英语性能? 2. RQ2: 指令微调阶段最优的英语vs多语言数据比例? 3. RQ3: 预训练阶段最优的语言分布? 4. RQ4: 如何提升多语言图像文本理解能力?

方法详解

整体框架

采用LLaVA架构(SigLIP SO400/384编码器 + 2层MLP投影器 + Phi 3.5/Llama 3/Qwen 2.5/Aya-Expanse作为LLM)。两阶段训练:预训练(图像描述,1.3M ShareGPT4V数据)+ 指令微调(0.77M LLaVA-Next数据)。通过NLLB机器翻译将英语数据翻译为多语言版本。评估覆盖13个任务、43种语言,按资源量分5个层级(T1最低资源~T5最高资源)。

关键设计

  1. 大规模语言无损扩展(RQ1): 将语言从7种逐步增加到100种(T5→T5-T4→...→L100),50%数据保持英语,另50%均匀分配给其他语言。惊人发现:不存在"多语言诅咒"!从7增加到100种语言,新语言性能大幅提升,已有语言几乎不降。语言忠实度改善最为显著。

  2. 数据比例优化(RQ2&3): 指令微调中测试英语占比E∈{1,10,25,50,75,90}%。发现25-50%英语数据是最佳平衡点——低资源语言受益于更多多语言数据,高资源语言受益于更多英语数据,50%是最稳健的选择。预训练阶段也是50%英语最优,但容忍度更高(1%英语也不掉太多)。

  3. 多语言OCR数据增强(RQ4): 提出SMPQA基准测试多语言图像文本理解(11种语言,7种文字系统)。使用Synthdog方法生成合成多语言OCR训练数据。关键发现:解冻图像编码器进行微调是关键;拉丁文系语言提升很快,但非拉丁文字系统仍然困难,即使将预算偏向非拉丁也效果有限。

  4. Centurio最终模型: 综合所有发现,使用Aya-Expanse/Qwen 2.5作为LLM骨干,图像分块采用Shi et al.的特征维度拼接方法(token数量不变),训练100种语言LVLM。

损失函数 / 训练策略

  • 预训练和指令微调均冻结图像编码器,仅更新MLP和LLM(使用LoRA)
  • OCR训练阶段解冻图像编码器
  • 机器翻译用NLLB-200-distilled-1.3B

实验关键数据

对比模型 英语平均 多语言平均 T1(最低资源) T2 T5(高资源)
Centurio Qwen 66.6 47.1 38.1 51.0 50.9
Centurio Aya 60.6 44.7 35.1 46.4 48.3
InternVL 2.5 8B 64.4 39.2 29.9 37.0 50.5
Qwen2-VL 7B 56.8 40.4 30.6 36.8 48.0
Pangea 59.8 43.6 38.5 38.6 49.9

RQ关键数字: - 100种语言训练 vs 仅英语:T1 +4.9, T2 +2.2, 英语仅-1.0 - 50%英语 vs 90%英语(指令微调):T1 +3.4, T2 +1.4, 英语-2.2 - 有预训练 vs 无预训练:几乎所有层级提升,特别是T2 +6.9

消融实验要点

  • 语言数量: 从7→100种语言,英语性能波动<2%,各层级多语言性能持续提升
  • 数据比例: 指令微调中25-50%英语最优;极端值(1%或90%英语)都不好
  • 预训练比例: 预训练对多语言数据更宽容,1%英语也能保持性能
  • OCR数据: 合成OCR数据对拉丁文字系统效果显著,对非拉丁文字系统提升有限
  • 图像编码器: 解冻图像编码器对OCR任务至关重要(解冻 vs 冻结差距大)
  • LLM骨干泛化: Llama 3实验结果与Phi 3.5趋势一致

亮点

  • 系统性极强: 四个RQ层层递进,控制变量实验设计严谨,每个发现都有Llama 3交叉验证
  • 颠覆性发现: "多语言诅咒"在LVLM中不成立——可以同时训练100种语言且几乎不损英语
  • 实用指南: 提供了非常明确的实操建议(50%英语、100种语言、加OCR数据、解冻编码器)
  • SMPQA基准: 新提出的多语言OCR评估基准,填补了该方向的空白

局限性 / 可改进方向

  • 机器翻译质量有限,特别是低资源语言;用高质量人工翻译可能效果更好
  • 非拉丁文字系统的图像文本理解仍然差距大,需要量级更大的OCR训练数据
  • 基于Phi 3.5(3.8B)的实验规模较小,更大模型的结论可能不同
  • 图像分辨率固定384px,限制了OCR能力(MTVQA等需要更高分辨率的评测表现不佳)
  • 未探索自然存在的多语言数据(非翻译数据)的影响

与相关工作的对比

  • vs Pangea (Yue et al.): 同期工作也发现20-80%英语数据都可以,但Centurio的系统性分析更全面(4个RQ、5个语言层级),在低资源语言上Centurio表现更好
  • vs InternVL 2.5 / Qwen2-VL: 这些模型在英语和高资源语言上有竞争力,但在低资源语言T1/T2上明显弱于Centurio
  • vs Maya / Parrot: 早期多语言LVLM只支持少数语言,Centurio扩展到100种且证明了可扩展性

启发与关联

  • 50%英语+50%机翻数据的策略可以迁移到其他多模态任务(如视频理解、3D理解)
  • "多语言诅咒"不成立的发现对所有多模态模型训练有参考价值
  • 合成OCR数据的有效性启发了数据增强方向的可能性

评分

  • 新颖性: ⭐⭐⭐⭐ 虽然方法本身不新,但系统性实验和颠覆性发现非常有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 13个任务、43种语言、5个资源层级、4个RQ、Llama 3交叉验证
  • 写作质量: ⭐⭐⭐⭐⭐ 结构极佳,RQ层层递进,表格信息密度高
  • 价值: ⭐⭐⭐⭐ 为多语言LVLM训练提供了清晰的实操指南和基准