Towards Open-ended Visual Quality Comparison¶
会议: ECCV 2024
arXiv: 2402.16641
代码: https://huggingface.co/q-future/co-instruct (有)
领域: 多模态VLM
关键词: 图像质量评估, 多图比较, 大型多模态模型, 指令微调, 视觉质量
一句话总结¶
本文提出 Co-Instruct,首个面向开放式视觉质量比较的大型多模态模型,通过从两种"弱监督源"(LLM合并的单图描述 + GPT-4V伪标签)构建562K指令微调数据集,实现比 GPT-4V(其教师模型)更高的多图质量比较准确率,并提出首个多图比较基准 MICBench。
研究背景与动机¶
图像质量评估(IQA)是视觉计算的重要领域。近年来,大型多模态模型(LMM)已被探索用于将IQA从输出标量分数扩展到开放式场景,即可以回答开放性问题并提供推理解释。
核心痛点:现有的开放式IQA方法都基于单图评估,面临一个根本问题 —— 绝对评估的模糊性。不同观察者对同一张图片的曝光度、清晰度等属性持有不同标准,导致绝对评价不一致。然而在比较设置下(如"哪张图更亮?"),所有人的回答趋于一致。
现有差距: 1. 现有数据集和方法仅支持整体质量的简单比较,未扩展到开放式场景 2. 开源LMM通常仅用单图数据微调,缺乏多图比较能力 3. 从人类标注收集比较数据集成本极高
核心创意:提出"协同指令微调"策略(Co-Instruct),利用两个不完美的弱监督源互补合作:(1) LLM将单图质量描述"合并"为比较文本;(2) GPT-4V在未标注数据上生成伪标签。两者互补构成562K训练数据集。
方法详解¶
整体框架¶
Co-Instruct 采用 mPLUG-Owl2 为基础模型,包含CLIP-ViT-L14视觉编码器、visual abstractor(将视觉token从1025压缩到65)和 LLaMA-2 LLM。通过图文交错格式处理多图输入,使用Co-Instruct-562K数据集微调。
关键设计¶
-
Merge2Compare(LLM合并比较): 从Q-Pathway数据集的19K张图的单图质量描述出发,随机配对/分组成100K组(2-4图),通过E5-Mistral文本嵌入模型去除最相似描述对,再用LLM将多个独立描述"合并"为比较文本。核心思路是将已有的单图评价"转换"为比较评价,人工验证正确率达96%。
-
Teach2Compare(GPT-4V教师比较): 收集9K张多样化未标注图片(包含野外图片、人工退化图片、AI生成图片),随机分组成30K组,喂给GPT-4V获取两种响应:(a) 整体质量比较描述;(b) 针对特定质量属性(清晰度、色彩等)的Q&A对(共230K对)。GPT-4V的准确率约94%,虽略低于Merge2Compare,但包含更多内容信息。
-
图文交错格式与Visual Token压缩: 为处理多图输入,采用visual abstractor将每张图的token数从1025压缩至65,并设计图文交错格式:"The first image:
The second image:
...
",让模型明确区分每张图的信息。实验表明此格式显著优于简单拼接或可学习分隔符。 -
MICBench基准: 构建首个多图质量比较评估基准,包含2000个多选题,涵盖3或4张图的质量比较,包括Which问题(60%)、Yes-or-No问题(22%)和其他类型(18%)。图片来源于LLVisionQA和未标注数据库,10位人类专家标注并交叉验证。
损失函数 / 训练策略¶
- 基于 mPLUG-Owl2 的已发布checkpoint微调
- 学习率 2e-5,batch size 192,训练2个epoch
- 所有参数均更新,总训练时间约25小时(8×A100)
- 图像padding到正方形后resize到448×448
实验关键数据¶
主实验¶
| 数据集 | 指标 | Co-Instruct | GPT-4V | 提升 |
|---|---|---|---|---|
| Q-Bench^PAIR-A1 | Overall Accuracy | 80.18% | 78.07% | +2.7% |
| Q-Bench^PAIR-A1 | Compare子集 | 74.22% | 68.00% | +6.2% |
Co-Instruct在Q-Bench^PAIR-A1上:
- 比基础模型mPLUG-Owl2高64%
- 比无多图比较数据的变体高51%
- 比最佳开源LMM(InternLM-XComposer2)高23%
- 超越人类非专家水平(80.18% vs 80.12%),是唯一做到这点的LMM
消融实验¶
| 配置 | Overall Accuracy | 说明 |
|---|---|---|
| 无多图比较数据 | 53.15% | 基线 |
| + Merge2Compare | 显著提升 | LLM合并有效 |
| + Teach2Compare | 进一步提升 | 两源互补 |
| 图片简单拼接 | 较低 | 图片信息混淆 |
| 图文交错格式 | 最高 | 明确区分各图 |
关键发现¶
- 学生(Co-Instruct)超越教师(GPT-4V):虽然MCQ训练数据来自GPT-4V,但Co-Instruct在MCQ评估中反超教师,说明协同教学策略有效
- 两个弱监督源的互补性至关重要:Merge2Compare准确率更高但缺乏细粒度比较,Teach2Compare虽略不准确但包含更多内容信息和Q&A多样性
- 图文交错格式大幅优于图片拼接或可学习特殊token分隔
亮点与洞察¶
- 弱监督协同的思路非常巧妙:不直接收集昂贵的人类比较标注,而是从已有的单图描述和GPT-4V伪标签两个不完美来源互补学习
- 比较优于绝对评价:这是心理物理学中的经典认知,本文将其系统性地引入LMM领域
- 学生超越教师现象:Co-Instruct同时从LLM合并(高准确率)和GPT-4V(多样性)学习,整合后超越任一单独来源
- Visual token压缩策略使多图输入变得可行,解决了LLaVA等模型context窗口不够的实际问题
局限与展望¶
- MICBench仅评估MCQ形式,未涵盖开放式回答的评估
- 依赖GPT-4V作为教师,数据质量受限于GPT-4V的视觉感知能力
- Visual abstractor的压缩(1025→65 tokens)可能丢失部分细节信息
- 未探索更多图片数量(如5张以上)的场景
- 可尝试用更强的视觉编码器(如InternViT)替代CLIP-ViT
相关工作与启发¶
- Q-Bench/Q-Instruct/Q-Align系列(同一团队)为本文奠定了单图质量评估的基础
- 数据构建策略(Merge2Compare)可推广到其他需要比较数据但人工标注昂贵的场景
- 协同弱监督的思路适用于其他模态的比较任务(如音频质量、视频质量比较)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性地将LMM扩展到开放式多图质量比较,数据构建策略创新
- 实验充分度: ⭐⭐⭐⭐⭐ 多基准全面评估,消融实验详细,包含人类对比
- 写作质量: ⭐⭐⭐⭐ 动机清晰、结构完整、图表丰富
- 价值: ⭐⭐⭐⭐ 在图像质量评估和LMM多图理解两个方向上都有重要贡献
相关论文¶
- [ECCV 2024] SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant
- [ECCV 2024] MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection
- [ECCV 2024] Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs
- [ECCV 2024] Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities
- [ECCV 2024] BRAVE: Broadening the Visual Encoding of Vision-Language Models