GENIXER: Empowering Multimodal Large Language Model as a Powerful Data Generator¶

会议: ECCV 2024
arXiv: 2312.06731
代码: https://github.com/zhaohengyuan1/Genixer (有)
领域: 多模态VLM
关键词: 数据生成, 视觉指令微调, MLLM, VQA, REC

一句话总结¶

Genixer提出一套完整的视觉指令微调数据生成pipeline，通过训练现有MLLM（LLaVA1.5和Shikra）使其具备数据生成能力，无需GPT-4即可生成高质量的VQA和REC指令数据，并通过Fuyu驱动和CLIP驱动的自动过滤框架保证数据质量。

领域现状：MLLM展现了卓越的多模态问题解决能力，但训练数据主要依赖两种途径：将现有VL数据集转为指令格式（受限于图像多样性）或使用GPT-4生成（成本高、复杂任务效果差）。
现有痛点：(1) GPT-4生成数据成本高，难以大规模使用；(2) GPT-4V在REC等复杂任务上无法生成正确的边界框；(3) 现有VL数据集多来自COCO，图像多样性受限。
核心矛盾：高质量指令数据是MLLM训练的关键，但获取成本高，且生成质量难以保证。
本文要解决什么？ 探索现有MLLM独立生成视觉指令数据的能力，无需GPT-4辅助。
切入角度：设计两级指令模板控制数据生成的任务类型，配合自动数据过滤保证质量。
核心idea一句话：训练MLLM自身成为数据生成器，用两级指令控制生成模式，再用Fuyu/CLIP驱动的过滤框架保证质量。

Genixer pipeline包含四步：(1) 收集9种代表性VL任务数据；(2) 设计两级指令模板（通用指令+特定指令）控制生成；(3) 训练两个数据生成器GenixerL（基于LLaVA1.5，通用任务）和GenixerS（基于Shikra，定位任务）；(4) 自动生成并过滤数据。

两级指令模板：Generic Instruction让模型自由生成任意类型数据（模式1），Specific Instruction指定特定任务类型如"This is a Common VQA task"（模式2）。通过控制常数τ调节训练样本中两种指令的比例。
Fuyu驱动数据过滤：对通用任务生成的数据，用Fuyu-8B模型验证生成的QA是否与图像一致。计算回答"Yes"的概率，设阈值λ=0.7过滤，从1.4M原始数据中筛选出915K高质量实例。
CLIP驱动数据过滤：对REC任务数据，先用正则表达式提取文本表达和坐标，再逐步过滤：排除格式错误→排除过小框→用OpenCLIP计算文本-区域相似度，阈值0.6，从1.4M中筛选350K。

模型	VQAv2	GQA	VizWiz	ScienceQA	POPE	MME
LLaVA-1.5	78.5	62.0	50.0	66.8	85.9	1465.0
+Genixer-915K	79.1	63.1	53.8	69.7	87.3	1502.7

Shikra+Genixer-350K在8个REC数据集中7个提升，平均+0.6%。

数据规模	VQAv2	ScienceQA	POPE
300K	79.0	68.5	87.1
610K	79.0	69.2	87.2
915K	79.1	69.7	87.3