Towards Open-Ended Visual Quality Comparison¶
会议: ECCV 2024
arXiv: 2402.16641
代码: https://huggingface.co/q-future/co-instruct (有)
领域: LLM/NLP
关键词: 视觉质量评估, 大规模多模态模型, 多图比较, 指令微调, 基准测试
一句话总结¶
提出 Co-Instruct,首个开源的开放式视觉质量比较大模型,通过构建 Co-Instruct-562K 数据集和 MICBench 基准,使 LMM 在视觉质量比较任务上超越 GPT-4V。
研究背景与动机¶
- 比较设置(成对选择、列表排名)是图像质量评估(IQA)中广泛采用的主观研究方法,因为它天然标准化了不同观察者的评估标准
- 现有开源 LMM 仅用单图指令微调数据训练,缺乏多图比较设置的能力
- 现有比较方法局限于整体质量比较,未扩展到开放式场景(开放问题 + 详细推理)
- 收集人工标注的比较数据集成本极高
- 核心动机:将 LMM 的能力扩展到开放式视觉质量比较,允许响应开放范围的比较问题并提供详细推理
方法详解¶
整体框架¶
系统由三部分组成: 1. Co-Instruct-562K 数据集构建(两种弱监督来源) 2. Co-Instruct 模型(基于 mPLUG-Owl2 + 视觉 token 压缩 + 图文交错格式) 3. MICBench 基准测试
关键设计¶
数据构建策略:
-
Merge2Compare(10万组):
- 从 Q-Pathway 的 19K 图像中随机匹配为 2-4 图组
- 用文本嵌入模型去除高相似度描述对(Top-similarity Pair Removal)
- 用单模态 LLM 将各图的人工质量描述"合并"为比较文本
- 准确率 96%
-
Teach2Compare(26万QA + 3万通用):
- 收集 9K 多样化未标注图像(野外 + 人工失真 + AI 生成)
- 用 GPT-4V 生成整体质量比较和质量相关 QA 对
- 准确率 94%
模型设计:
- 视觉 token 压缩:采用 abstractor 结构将每图 1025 token 减至 65 token,适配多图输入
- 图文交错格式:The first image: <img₀> The second image: <img₁> ... <query>,使模型能区分不同图像
MICBench 基准: - 2000 个多选题,比较 3-4 张图的质量/属性 - 题型:Which 问题 60%、Yes-or-No 22%、其他 18% - 分为 dev set (1004) 和 test set (996)
损失函数 / 训练策略¶
- 基础模型:mPLUG-Owl2 (LLaMA-2 + CLIP-ViT-L14)
- 输入分辨率:448×448
- 学习率 2e-5,batch size 192,训练 2 epochs,全参数更新
- 训练时间:25 小时 / 8×A100
实验关键数据¶
主实验¶
| 指标 | SD-XL | PixArt-α | GlyphControl | TextDiffuser | Co-Instruct |
|---|---|---|---|---|---|
| Q-Bench^PAIR 整体 | - | - | - | - | 最优 |
| MICBench | - | - | - | - | 超越GPT-4V |
Co-Instruct 在 Q-Bench^PAIR-A1 上比无比较数据变体高 51%,是唯一超越人类能力的 LMM。
消融实验¶
| 组件 | 效果 |
|---|---|
| Merge2Compare only | 准确率提升但缺少细粒度 |
| Teach2Compare only | 更多样但略低准确率 |
| 组合训练 | 最优,互补增强 |
| 图文交错 vs 图片堆叠 | 交错格式显著优于堆叠 |
| Abstractor vs 线性投影 | Abstractor 解决多图 context 溢出 |
关键发现¶
- Co-Instruct 比最佳开源 LMM 平均高 30% 准确率
- 虽然用 GPT-4V 作为老师之一,但学生超越了老师
- 两种数据子集互补:Merge2Compare 准确但缺细粒度,Teach2Compare 多样但略不准确
- Which 类问题是质量比较中最重要也最具挑战性的类型
亮点与洞察¶
- 弱监督数据构建的巧妙设计:完全避免了昂贵的人工多图比较标注,两种方法互补
- 学生超越老师:Co-Instruct 在多个基准上超越了其老师 GPT-4V
- 开辟新任务:首次将视觉质量比较推进到开放式多图场景
- 实用价值高:图像质量比较在推荐系统和图像改进指导中有直接应用
局限性 / 可改进方向¶
- Merge2Compare 的 Top-similarity Removal 会丢弃部分数据(四图组仅保留 55%)
- 仅支持 2-4 图比较,未扩展到更多图的列表排名场景
- 视觉 abstracto 的 token 压缩可能丢失细节信息
- GPT-4V 伪标签存在约 6% 错误率,可能引入噪声
- 未来可探索:更多图比较、视频质量比较、主动学习减少伪标签噪声
相关工作与启发¶
- Q-Bench 系列(Q-Bench, Q-Instruct, Q-Align)奠定了 LMM 质量评估的基础,本文是比较设置的自然延伸
- 弱监督数据构建策略(LLM 合并 + GPT-4V 教学)可推广到其他需要比较标注的任务
- 图文交错输入格式对多图 LMM 有通用参考价值
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 新颖性 | 4 |
| 技术深度 | 3.5 |
| 实验充分性 | 4.5 |
| 写作质量 | 4 |
| 实用价值 | 4 |
| 总分 | 4 |
相关论文¶
- [ECCV 2024] SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant
- [ECCV 2024] MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection
- [ECCV 2024] Meta-Prompting for Automating Zero-shot Visual Recognition with LLMs
- [ECCV 2024] Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities
- [ECCV 2024] BRAVE: Broadening the Visual Encoding of Vision-Language Models