Towards Open-Ended Visual Quality Comparison¶

会议: ECCV 2024
arXiv: 2402.16641
代码: https://huggingface.co/q-future/co-instruct (有)
领域: LLM/NLP
关键词: 视觉质量评估, 大规模多模态模型, 多图比较, 指令微调, 基准测试

一句话总结¶

提出 Co-Instruct，首个开源的开放式视觉质量比较大模型，通过构建 Co-Instruct-562K 数据集和 MICBench 基准，使 LMM 在视觉质量比较任务上超越 GPT-4V。

研究背景与动机¶

比较设置（成对选择、列表排名）是图像质量评估（IQA）中广泛采用的主观研究方法，因为它天然标准化了不同观察者的评估标准
现有开源 LMM 仅用单图指令微调数据训练，缺乏多图比较设置的能力
现有比较方法局限于整体质量比较，未扩展到开放式场景（开放问题 + 详细推理）
收集人工标注的比较数据集成本极高
核心动机：将 LMM 的能力扩展到开放式视觉质量比较，允许响应开放范围的比较问题并提供详细推理

方法详解¶

整体框架¶

系统由三部分组成： 1. Co-Instruct-562K 数据集构建（两种弱监督来源） 2. Co-Instruct 模型（基于 mPLUG-Owl2 + 视觉 token 压缩 + 图文交错格式） 3. MICBench 基准测试

关键设计¶

数据构建策略：

Merge2Compare（10万组）：
- 从 Q-Pathway 的 19K 图像中随机匹配为 2-4 图组
- 用文本嵌入模型去除高相似度描述对（Top-similarity Pair Removal）
- 用单模态 LLM 将各图的人工质量描述"合并"为比较文本
- 准确率 96%
Teach2Compare（26万QA + 3万通用）：
- 收集 9K 多样化未标注图像（野外 + 人工失真 + AI 生成）
- 用 GPT-4V 生成整体质量比较和质量相关 QA 对
- 准确率 94%

模型设计： - 视觉 token 压缩：采用 abstractor 结构将每图 1025 token 减至 65 token，适配多图输入 - 图文交错格式：The first image: <img₀> The second image: <img₁> ... <query>，使模型能区分不同图像

MICBench 基准： - 2000 个多选题，比较 3-4 张图的质量/属性 - 题型：Which 问题 60%、Yes-or-No 22%、其他 18% - 分为 dev set (1004) 和 test set (996)

损失函数 / 训练策略¶

基础模型：mPLUG-Owl2 (LLaMA-2 + CLIP-ViT-L14)
输入分辨率：448×448
学习率 2e-5，batch size 192，训练 2 epochs，全参数更新
训练时间：25 小时 / 8×A100

实验关键数据¶

主实验¶

指标	SD-XL	PixArt-α	GlyphControl	TextDiffuser	Co-Instruct
Q-Bench^PAIR 整体	-	-	-	-	最优
MICBench	-	-	-	-	超越GPT-4V

Co-Instruct 在 Q-Bench^PAIR-A1 上比无比较数据变体高 51%，是唯一超越人类能力的 LMM。

消融实验¶

组件	效果
Merge2Compare only	准确率提升但缺少细粒度
Teach2Compare only	更多样但略低准确率
组合训练	最优，互补增强
图文交错 vs 图片堆叠	交错格式显著优于堆叠
Abstractor vs 线性投影	Abstractor 解决多图 context 溢出

关键发现¶

Co-Instruct 比最佳开源 LMM 平均高 30% 准确率
虽然用 GPT-4V 作为老师之一，但学生超越了老师
两种数据子集互补：Merge2Compare 准确但缺细粒度，Teach2Compare 多样但略不准确
Which 类问题是质量比较中最重要也最具挑战性的类型

亮点与洞察¶

弱监督数据构建的巧妙设计：完全避免了昂贵的人工多图比较标注，两种方法互补
学生超越老师：Co-Instruct 在多个基准上超越了其老师 GPT-4V
开辟新任务：首次将视觉质量比较推进到开放式多图场景
实用价值高：图像质量比较在推荐系统和图像改进指导中有直接应用

局限性 / 可改进方向¶

Merge2Compare 的 Top-similarity Removal 会丢弃部分数据（四图组仅保留 55%）
仅支持 2-4 图比较，未扩展到更多图的列表排名场景
视觉 abstracto 的 token 压缩可能丢失细节信息
GPT-4V 伪标签存在约 6% 错误率，可能引入噪声
未来可探索：更多图比较、视频质量比较、主动学习减少伪标签噪声

评分¶

维度	分数 (1-5)
新颖性	4
技术深度	3.5
实验充分性	4.5
写作质量	4
实用价值	4
总分	4