Harnessing PDF Data for Improving Japanese Large Multimodal Models¶

会议: ACL 2025
arXiv: 2502.14778
代码: https://github.com/ku21fan/PDF-JLMM (有)
领域: Multimodal / VLM
关键词: 日语大模型, PDF数据, 多模态训练, 数据管道, 持续微调

一句话总结¶

提出一套全自动 PDF 数据提取管道，从日语 PDF 中提取图文对并生成指令数据，通过持续微调 LLaVA1.5 框架显著提升日语多模态模型性能，在 Heron-Bench 上实现 2.1%~13.8% 的提升。

研究背景与动机¶

大型多模态模型（LMM）在英语上表现出色，但在日语等非英语语言上受限于高质量训练数据的匮乏。当前日语 LMM 面临的核心困境：

数据来源单一：多数开源日语 LMM 依赖翻译的英语数据集（如 LLaVA 的日语翻译版），导致模型主要学习西方文化内容，缺乏日本特有文化知识（如樱花、日式建筑等）

PDF 数据未被利用：与网络爬取的图文数据不同，PDF 包含大量来自书籍、报告、宣传册等的高价值但未被开发的信息。据作者所知，尚无研究利用 PDF 数据增强日语 LMM

人工标注成本高：大规模 PDF 的手动图文标注不现实

关键研究问题：PDF 数据能否有效增强日语 LMM？如何自动化地从 PDF 中提取有用的训练数据？

方法详解¶

整体框架¶

三阶段训练流程：Stage 1 预训练（558K 日语图文对）→ Stage 2 指令微调（620K 日语指令数据）→ Stage 3 持续微调 CFT（362K PDF衍生指令数据）。核心创新在 Stage 3 的数据构建管道。

关键设计¶

PDF 收集与筛选：从日本国立国会图书馆网络归档项目获取超 5,138 万个 PDF。筛选策略——仅选 5 页以下的 PDF（页数多的更像书籍，图片少）；仅提取首页（图片通常出现在首页）；用 PyMuPDF 检测含图片的 PDF。最终筛选出 20 万个 PDF 页面。设计动机：手动观察数百个 PDF 后发现的经验规律，用简单规则高效过滤大量无图 PDF。
布局分析 + OCR 提取：不直接从 PDF 读取数据（PyMuPDF 可能提取不可见图像或错误拆分图像），而是先将 PDF 转为 JPEG 图像，再用 Surya 工具进行布局分析和 OCR。Surya 基于预训练深度学习模型，支持 90+ 语言。但性能并不完美——偶尔将日语字符误识别为印地语；过滤掉宽/高小于 50 像素的"图像"。
图文配对：使用 Japanese-Cloob（日本广泛使用的 CLIP 类模型，月活 30 万用户）计算图像嵌入和 OCR 文本嵌入的余弦相似度，选最相似文本作为配对文本。关键发现：由于 OCR 质量不完美（断行、复杂汉字误识别），直接使用提取的图文对训练效果差。
PDF-style text 生成：为探索"如果图文对提取更准确会怎样"，用 GPT-4o-mini 为每张图像生成"PDF 风格文本"——不是直接描述图像，而是模拟 PDF 中围绕图像的间接说明文本。实验证明这种方式比原始提取的图文对有效得多。
指令数据生成：直接将图像输入 GPT-4o-mini 生成日语指令数据（对话格式），配对文本作为可选上下文。核心发现：当配对文本质量差时，仅用图像生成指令数据反而效果更好。因此最终方案中，所有 362K 指令数据都是仅基于图像生成的。
NSFW 和 PII 过滤：使用 GPT-4o-mini 检测并过滤不安全内容和个人身份信息。

训练策略¶

基于 LLaVA1.5 框架，将视觉编码器从 CLIP 替换为 SigLIP
使用 LoRA 进行参数高效微调
主模型 PDF-JLMM 使用 Swallow（Llama3-8B 的日语微调版）作为基座 LLM
训练耗时（4×A100）：Stage 1 约 11h，Stage 2 约 42h，Stage 3 约 19h

实验关键数据¶

主实验（与现有日语 LMM 比较）¶

模型	JA-LLaVA-Bench(COCO)	JA-LLaVA-Bench(Wild)	Heron-Bench
GPT-4V	90.1	94.1	79.7
Qwen-VL 7B	80.4	54.0	49.7
Heron BLIP v1 7B	89.5	45.1	45.4
EvoVLM-JP-v1 7B	69.2	56.4	45.1
PDF-JLMM 8B	88.2	65.8	65.8
LLaVA1.5-Llama3 8B	86.9	56.9	61.6
LLaVA1.5-Phi3-medium 14B	86.8	74.1	57.4

PDF 数据量的影响（Heron-Bench）¶

LLM	Stages 1&2	+50K PDF	+100K PDF	+150K PDF	+200K PDF
Swallow 8B	54.7	65.7	65.8	63.8	64.6
Llama3 8B	54.8	58.7	61.0	61.8	61.6
Phi3-mini 3.8B	43.3	51.9	53.0	57.1	54.3
Phi3-medium 14B	54.2	58.8	56.3	57.4	58.1

原始图文对 vs 指令数据¶

训练数据	L-COCO	L-Wild	Heron
Stages 1&2（基线）	84.0	59.8	54.7
Top 1 图文对	77.0	37.4	40.0
PDF-style text	81.5	56.5	65.5
指令数据（仅图像）	87.3	61.6	65.7

PDF 数据 vs 翻译英语数据¶

Stage 2 数据来源	L-COCO	L-Wild	Heron
LLaVA-v1.5-Instruct-620K-JA	84.0	59.8	54.7
Instruct-from-200K PDF (362K)	88.1	72.7	70.0

关键发现¶

PDF 衍生数据对所有模型规模（3.8B~14B）和所有 LLM 基座（日语/非日语）都有效
Heron-Bench 上最大提升 13.8%（Phi3-mini），最小提升 2.1%（Phi3-medium）
直接使用原始图文对反而导致性能下降（Heron 从 54.7 降至 40.0），说明 OCR 噪声对训练是有害的
仅用图像生成的指令数据优于使用图像+配对文本，因为噪声文本会干扰指令质量
PDF 数据优于翻译英语数据：即使样本数更少（362K vs 620K），Heron-Bench 高出 15.3%，证明文化扎根内容的价值
翻译其他英语数据集（Vision-Flan、Image-Textualization）甚至导致日语性能下降
日语词汇量影响显著：Phi3 仅 837 个日语词汇，14B 模型性能反不如 8B 的 Llama3
数据量非线性增长效果递减：超过 100K~150K PDF 后性能趋于饱和

亮点与洞察¶

首次证明 PDF 作为多模态训练资源的价值：PDF 包含大量文化特定内容，这是翻译数据集无法替代的
"仅用图像生成指令"比"用图像+噪声文本"更好：这是一个反直觉但重要的发现——低质量的配对文本不如没有
文化知识的重要性：训练后模型能正确识别"樱花"而非仅说"白色花朵"，这是翻译数据无法提供的
自动化管道虽不完美但有效：即使 OCR 和配对存在误差，只要后续指令生成策略得当，仍能产出高质量训练数据
PDF-style text 实验巧妙：通过 GPT 生成理想化的配对文本作为"上限实验"，证明了如果提取技术更好，图文对方式也大有潜力

局限与展望¶

依赖 GPT-4o-mini 生成指令数据和 PDF-style text，引入了 API 成本和潜在的质量偏差
仅在 LLaVA1.5 框架上实验，未验证对更先进架构（如 Qwen-VL2、InternVL）的泛化性
Surya 的 OCR 和布局分析在通用 PDF 上性能受限，制约了图文对直接使用的可能性
仅在日语上实验，虽然声称可推广到其他语言但未验证
评估仅使用了 Heron-Bench 系列基准，未在 JDocQA、JMMMU 等新基准上测试

评分¶

新颖性: ⭐⭐⭐⭐ — 首次利用 PDF 数据增强日语 LMM，全自动管道设计有创意
实验充分度: ⭐⭐⭐⭐⭐ — 消融极为详尽：模型规模、LLM选择、数据量、图文对vs指令、翻译vs原生数据均有对比
写作质量: ⭐⭐⭐⭐ — 结构清晰，每个实验都围绕一个明确的问题展开
价值: ⭐⭐⭐⭐ — 为低资源语言 LMM 训练提供了可复制的方法论，PDF 数据源的思路有广泛启发