Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model¶

会议: ACL 2025 (Long Paper)
arXiv: 2501.05122
代码: https://gregor-ge.github.io/Centurio
领域: 多模态VLM
关键词: 多语言VLM, 训练数据分布, LVLM, 多语言OCR, 100语言

一句话总结¶

系统研究多语言LVLM训练策略，发现可以同时支持100种语言、只需25-50%非英文数据即可大幅提升多语言性能且不损英语性能，最终训练的Centurio在14个任务56种语言上达到SOTA。

背景与动机¶

当前大多数LVLM仅用英语数据训练，导致三大问题：(1)无法理解非英语指令；(2)无法处理图像中的非英语文字；(3)语言忠实度差（无法用目标语言回复）。已有多语言LVLM工作只是临时添加多语言数据，缺乏对最优训练数据组合的系统研究。核心问题是：在固定训练预算下，如何在不同语言间分配数据？

核心问题¶

四个递进的研究问题： 1. RQ1: 训练多少种语言不会损害英语性能？ 2. RQ2: 指令微调阶段最优的英语vs多语言数据比例？ 3. RQ3: 预训练阶段最优的语言分布？ 4. RQ4: 如何提升多语言图像文本理解能力？

方法详解¶

整体框架¶

采用LLaVA架构（SigLIP SO400/384编码器 + 2层MLP投影器 + Phi 3.5/Llama 3/Qwen 2.5/Aya-Expanse作为LLM）。两阶段训练：预训练（图像描述，1.3M ShareGPT4V数据）+ 指令微调（0.77M LLaVA-Next数据）。通过NLLB机器翻译将英语数据翻译为多语言版本。评估覆盖13个任务、43种语言，按资源量分5个层级（T1最低资源~T5最高资源）。

关键设计¶

大规模语言无损扩展（RQ1）: 将语言从7种逐步增加到100种（T5→T5-T4→...→L100），50%数据保持英语，另50%均匀分配给其他语言。惊人发现：不存在"多语言诅咒"！从7增加到100种语言，新语言性能大幅提升，已有语言几乎不降。语言忠实度改善最为显著。
数据比例优化（RQ2&3）: 指令微调中测试英语占比E∈{1,10,25,50,75,90}%。发现25-50%英语数据是最佳平衡点——低资源语言受益于更多多语言数据，高资源语言受益于更多英语数据，50%是最稳健的选择。预训练阶段也是50%英语最优，但容忍度更高（1%英语也不掉太多）。
多语言OCR数据增强（RQ4）: 提出SMPQA基准测试多语言图像文本理解（11种语言，7种文字系统）。使用Synthdog方法生成合成多语言OCR训练数据。关键发现：解冻图像编码器进行微调是关键；拉丁文系语言提升很快，但非拉丁文字系统仍然困难，即使将预算偏向非拉丁也效果有限。
Centurio最终模型: 综合所有发现，使用Aya-Expanse/Qwen 2.5作为LLM骨干，图像分块采用Shi et al.的特征维度拼接方法（token数量不变），训练100种语言LVLM。

损失函数 / 训练策略¶

预训练和指令微调均冻结图像编码器，仅更新MLP和LLM（使用LoRA）
OCR训练阶段解冻图像编码器
机器翻译用NLLB-200-distilled-1.3B

实验关键数据¶

对比模型	英语平均	多语言平均	T1(最低资源)	T2	T5(高资源)
Centurio Qwen	66.6	47.1	38.1	51.0	50.9
Centurio Aya	60.6	44.7	35.1	46.4	48.3
InternVL 2.5 8B	64.4	39.2	29.9	37.0	50.5
Qwen2-VL 7B	56.8	40.4	30.6	36.8	48.0
Pangea	59.8	43.6	38.5	38.6	49.9

RQ关键数字： - 100种语言训练 vs 仅英语：T1 +4.9, T2 +2.2, 英语仅-1.0 - 50%英语 vs 90%英语（指令微调）：T1 +3.4, T2 +1.4, 英语-2.2 - 有预训练 vs 无预训练：几乎所有层级提升，特别是T2 +6.9

消融实验要点¶

语言数量: 从7→100种语言，英语性能波动<2%，各层级多语言性能持续提升
数据比例: 指令微调中25-50%英语最优；极端值（1%或90%英语）都不好
预训练比例: 预训练对多语言数据更宽容，1%英语也能保持性能
OCR数据: 合成OCR数据对拉丁文字系统效果显著，对非拉丁文字系统提升有限
图像编码器: 解冻图像编码器对OCR任务至关重要（解冻 vs 冻结差距大）
LLM骨干泛化: Llama 3实验结果与Phi 3.5趋势一致

亮点¶

系统性极强: 四个RQ层层递进，控制变量实验设计严谨，每个发现都有Llama 3交叉验证
颠覆性发现: "多语言诅咒"在LVLM中不成立——可以同时训练100种语言且几乎不损英语
实用指南: 提供了非常明确的实操建议（50%英语、100种语言、加OCR数据、解冻编码器）
SMPQA基准: 新提出的多语言OCR评估基准，填补了该方向的空白

局限性 / 可改进方向¶

机器翻译质量有限，特别是低资源语言；用高质量人工翻译可能效果更好
非拉丁文字系统的图像文本理解仍然差距大，需要量级更大的OCR训练数据
基于Phi 3.5（3.8B）的实验规模较小，更大模型的结论可能不同
图像分辨率固定384px，限制了OCR能力（MTVQA等需要更高分辨率的评测表现不佳）
未探索自然存在的多语言数据（非翻译数据）的影响

与相关工作的对比¶

vs Pangea (Yue et al.): 同期工作也发现20-80%英语数据都可以，但Centurio的系统性分析更全面（4个RQ、5个语言层级），在低资源语言上Centurio表现更好
vs InternVL 2.5 / Qwen2-VL: 这些模型在英语和高资源语言上有竞争力，但在低资源语言T1/T2上明显弱于Centurio
vs Maya / Parrot: 早期多语言LVLM只支持少数语言，Centurio扩展到100种且证明了可扩展性

启发与关联¶

50%英语+50%机翻数据的策略可以迁移到其他多模态任务（如视频理解、3D理解）
"多语言诅咒"不成立的发现对所有多模态模型训练有参考价值
合成OCR数据的有效性启发了数据增强方向的可能性

评分¶

新颖性: ⭐⭐⭐⭐ 虽然方法本身不新，但系统性实验和颠覆性发现非常有价值
实验充分度: ⭐⭐⭐⭐⭐ 13个任务、43种语言、5个资源层级、4个RQ、Llama 3交叉验证
写作质量: ⭐⭐⭐⭐⭐ 结构极佳，RQ层层递进，表格信息密度高
价值: ⭐⭐⭐⭐ 为多语言LVLM训练提供了清晰的实操指南和基准