OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference¶

会议: ACL 2025
arXiv: 2502.18411
代码: https://github.com/PhoenixZ810/OmniAlign-V
领域: multimodal_vlm
关键词: MLLM alignment, human preference, instruction tuning, DPO, multi-modal dataset, benchmark

一句话总结¶

构建了 OmniAlign-V（200K 高质量多模态 SFT 数据集）和 MM-AlignBench 评测基准，通过多样化图片来源、开放式问题设计和多样化回答格式，显著提升开源 MLLM 的人类偏好对齐能力，使 LLaVA-Next-32B 经 SFT+DPO 后超越 Qwen2VL-72B。

研究背景与动机¶

问题发现：MLLM 的对齐能力退化¶

开源 MLLM 在标准 VQA 基准上接近商业模型，但在人类偏好对齐方面存在显著差距
关键实验（Table 1）：多模态 SFT 后，MLLM 在纯文本对齐基准上大幅退化
- InternLM2.5-7B → InternVL2-8B：AlpacaEval-V2 从 27.58 降至 3.35（-87.9%）
- Qwen2-7B → Qwen2VL-7B：ArenaHard 从 32.84 降至 6.46（-80.3%）

仅加高质量文本数据无济于事¶

将 LLaVA-Next-778K 中的文本数据替换为 Magpie/Condor 高质量数据
结果（Table 2）：纯文本对齐提升，但多模态对齐反而下降
- WildVision、MMVet、MMBench 等多模态指标全面恶化
结论：语言对齐能力不能直接迁移到多模态对齐，需要专门的多模态人类对齐数据

现有多模态数据的问题¶

以 VQA 格式为主：简短问答、事实性回答
缺乏开放式问题、创意任务、多样回答风格
不满足人类偏好对齐的需求

方法详解¶

OmniAlign-V 数据集构建¶

4.1 任务分类¶

自然图像（3 类任务）： - Knowledge（知识问答）：需要背景知识理解 - Inferential（推理任务）：需要逻辑推理和分析 - Creation（创作任务）：开放式创意问答

信息图（4 类图像）： - Arts（艺术）、Charts（图表）、Diagrams（图解）、Posters（海报）

4.2 图像筛选策略（自然图像）¶

两步筛选确保语义丰富度： 1. IC9600 图像复杂度模型：过滤低语义内容图像 2. Recognize Anything Model：过滤高复杂度但无意义内容的图像（如反复出现的帐篷）

4.3 数据生成流水线¶

Knowledge & Inferential：GPT-4o + 精心设计的 few-shot prompt 直接生成

Creative：更复杂的流程（受 Condor 启发）： 1. 创建种子创意问题集 \(Q_s = \{Q_1, Q_2, ..., Q_N\}\) 2. 用轻量 MLLM 生成图像 caption \(C\) 3. LLM 根据 caption 从种子集选择相关子集 \(Q_s'\) 4. 随机选 3 种问题类型作为 few-shot 示例给 GPT-4o

Infographic：针对不同图类设计专门 prompt，生成需要全面背景知识的问题

4.4 后精炼¶

Instruction Augmented Knowledge QAs：为知识问答加入复杂指令和限制条件
Enriched Inferential QAs：用知识丰富的 LLM 补充详细解释和推理逻辑
Quality Improved Infographic QAs：
- GPT-4o 擅长背景知识解释但 OCR 不准
- 开源 MLLM OCR 准但解释不够
- 融合两者的回答 + 人工审核

数据规模¶

子集	数量
Knowledge QAs	39K
Inferential QAs	37K
Creative QAs	10K
Instruction-Following QAs	38K
Infographic QAs	44K
Detail QAs	35K
总计	~205K

DPO 数据生成（OmniAlign-V-DPO）¶

OmniAlign-V 的高质量回答作为 positive sample
用 LLaVA-Next baseline（generator G）高温采样 N 个回答
LLM Judger 选出最偏离原始意图的回答作为 negative sample

MM-AlignBench 评测基准¶

252 个高质量样本，人工标注
多样图像来源（SAM-1B、CC-3M、AI2D、ChartQA、InfographicVQA）
先 IC 筛选 + RAM 筛选得 2000 张自然图 + 1000 张信息图
GPT-4o 生成多样问题 → 人工审核精炼
评估方式：GPT-4o 判断，对比 Claude3V-Sonnet 参考回答

实验¶

SFT 阶段评估¶

将 OmniAlign-V 与 LLaVA-Next-778k（去除文本样本）合并为 OmniAlign-Vmix（946K）。

InternLM2.5-7B 作为 LLM 的 LLaVA-Next：

指标	LLaVA-Next-778k	OmniAlign-Vmix	变化
MM-AlignBench	20.6 / -42.7	57.1 / +11.1	+36.5
WildVision	23.4 / -45.0	29.6 / -31.3	+6.2
MIA-Bench	76.9	86.7	+9.8
MMVet	41.8	47.7	+5.9
MMMU	44.1	46.8	+2.7
OCRBench	56.2	58.9	+2.7

人类偏好对齐大幅提升（MM-AlignBench +36.5 winning rate）
标准 VQA 基准不降反升

Qwen2.5-32B 作为 LLM： - MM-AlignBench：26.6 → 62.3（+35.7） - MMMU：55.2 → 60.7（+5.5）

纯文本对齐也改善¶

即使训练数据不含纯文本样本，OmniAlign-V 也提升了纯文本对齐： - AlpacaEval-V2（vs GPT-3.5）：29.8 → 50.1 - ArenaHard：21.4 → 30.4 - 洞察：高质量多模态数据能反哺语言能力

DPO 阶段评估¶

模型	阶段	MM-AlignBench	WildVision
LLaVANext-778k	SFT	9.5 / -69.2	30.4 / -34.2
LLaVANext-778k	SFT+DPO	11.1 / -64.5	35.5 / -23.4
LLaVANext-OA	SFT	57.1 / +11.1	29.6 / -31.3
LLaVANext-OA	SFT+DPO	64.3 / +22.4	41.8 / -10.1
InternVL2-8B	SFT+DPO	64.7 / +19.4	51.4 / +1.9

DPO 在 OmniAlign-V SFT 基础上进一步提升
仅用 778k 数据做 SFT 后再 DPO 效果有限——说明 SFT 阶段的对齐数据质量是 DPO 效果的前提

MM-AlignBench 排行榜¶

模型	Win Rate↑	Reward↑
Claude3.5V-Sonnet	84.9	+51.4
GPT-4o	81.3	+49.0
LLaVA-OA-32B-DPO	74.2	+36.9
Qwen2VL-72B	61.5	+21.6
InternVL2-72B	44.4	-6.9

LLaVA-OA-32B-DPO（32B）超越 Qwen2VL-72B（72B），仅次于 Claude 和 GPT-4o

消融实验¶

逐步添加 OmniAlign-V 子集的效果： - +Knowledge/Inferential/Detail：小幅提升 - +Instruction Following：MM-AlignBench 从 23.4 跃升至 36.5（关键子集） - +Creation：MM-AlignBench 继续提升至 43.7 - +Chart/Diagram/Poster：最终达到 57.1

亮点与洞察¶

发现并量化了 MLLM 对齐退化问题：多模态 SFT 导致语言对齐能力下降 60-90%
揭示反直觉现象：加高质量文本数据不改善甚至损害多模态对齐——必须用专门的多模态对齐数据
数据工程系统性强：图像筛选（IC+RAM）→ 任务分类 → 多种生成策略 → 后精炼 → 人工审核
SFT + DPO 的协同效应：SFT 阶段的对齐质量决定了 DPO 能否生效
32B 模型打败 72B：证明数据质量 > 模型规模
MM-AlignBench 填补了多模态偏好对齐评测的空白

局限性¶

数据生成严重依赖 GPT-4o，成本较高
信息图的 OCR 融合策略需要人工审核把关
MM-AlignBench 仅 252 样本，规模较小
评估使用 GPT-4o as judge，可能存在评判偏差
未讨论安全对齐（如拒绝有害请求），主要关注偏好和有用性对齐

评分 ⭐⭐⭐⭐⭐¶

研究动机清晰（发现并解决 MLLM 对齐退化）、数据工程极为系统、实验全面且有力（32B 超 72B），提供了完整的数据集 + 基准 + 代码。是多模态对齐方向的标杆工作。