跳转至

Grounding-IQA: Grounding Multimodal Language Models for Image Quality Assessment

会议: ICLR 2026
arXiv: 2411.17237
代码: https://github.com/zhengchen1999/Grounding-IQA (有)
领域: 目标检测 / 多模态VLM / 图像质量评估
关键词: 图像质量评估, 空间定位, 多模态LLM, 细粒度感知, grounding

一句话总结

将空间定位(referring + grounding)与图像质量评估结合,构建 GIQA-160K 数据集训练多模态 LLM 生成带有边界框的质量描述和空间 VQA,在细粒度质量感知上显著优于通用 MLLM。

研究背景与动机

  1. 领域现状:图像质量评估(IQA)已从传统指标(PSNR/SSIM)发展到基于多模态 LLM 的语义 IQA(如 Q-Instruct),能生成自然语言描述的质量评估。
  2. 现有痛点:现有 IQA 方法只给出全图级别的质量描述(如"图像整体模糊"),无法精确指出哪个区域有什么质量问题。对于复杂图像(如部分区域清晰、部分模糊),全图描述过于粗糙。
  3. 核心矛盾:IQA 需要细粒度的空间定位能力,但现有 IQA 数据集没有空间标注,MLLM 的空间感知能力在低级视觉任务上未被充分利用。
  4. 本文要解决什么? (a) 构建带空间标注的 IQA 数据集,(b) 训练 MLLM 同时进行质量评估和空间定位。
  5. 切入角度:定义两个新子任务——GIQA-Description(带框的质量描述)和 GIQA-VQA(带空间信息的质量 QA)。
  6. 核心idea一句话:让 IQA 模型不仅说"图像模糊",还要指出"台球桌区域(bbox)是清晰的,但背景区域(bbox)是模糊的"。

方法详解

整体框架

四阶段自动标注流水线构建 GIQA-160K 数据集,然后在该数据集上微调 MLLM(如 mPLUG-Owl2)。

关键设计

  1. 自动标注流水线(4 阶段):
  2. Stage 1: Llama3 从质量描述中提取对象标签三元组(描述短语, 质量, 效果)
  3. Stage 2: Grounding DINO 用描述短语(而非对象名)检测边界框——更精确
  4. Stage 3: IQA-Filter 用 Q-Instruct 验证检测到的框是否真的有指定质量问题 + Box-Merge 合并碎框
  5. Stage 4: 坐标离散化为网格索引(20x20 网格),用最多 9 个 token 表示一个框

  6. GIQA-VQA 生成:

  7. 做什么:从 GIQA-DES 的描述中自动生成带空间信息的 QA 对
  8. 核心思路:用 LLM 生成两类问题——Yes/No 问题(约 5 万)和 What/Why/How 开放问题(约 5 万),确保问题引用带框的实体。
  9. 设计动机:VQA 格式更灵活,支持 referring(给定位置问质量)和 grounding(给定质量问位置)两个方向。

  10. 多任务训练:

  11. 做什么:同时训练描述和 VQA 两个任务
  12. 核心思路:在 GIQA-160K 上用标准 SFT 微调,损失为自回归 LM 损失。
  13. 设计动机:消融显示多任务训练(DES + VQA)在两个任务上都优于单任务训练。

实验关键数据

主实验(GIQA-Bench, mPLUG-Owl2-7B)

指标 微调前 微调后 提升
BLEU@4 3.62 22.87 +19.25
LLM-Score 48.25 63.00 +14.75
mIoU (框定位) N/A 0.5955 -
VQA 总准确率 56.3% 74.2% +17.9%

跨模型对比

模型 mIoU BLEU@4 VQA 总准确率
LLaVA-v1.5-7B 0.528 19.02 68.5%
LLaVA-v1.6-7B 0.598 19.17 72.5%
mPLUG-Owl2-7B 0.596 22.87 74.2%

消融实验

配置 Tag-Recall LLM-Score VQA 准确率
Only-DES 0.550 61.75 59.0%
Only-VQA 0.328 38.50 72.2%
GIQA-160K (DES+VQA) 0.547 63.00 74.2%

关键发现

  • 多任务训练在 VQA 准确率上比 Only-VQA 提升 2.0%,在描述质量上比 Only-DES 提升 1.25 LLM-Score
  • 框精化(IQA-Filter + Box-Merge)将 mIoU 从 0.562 提升到 0.585
  • 坐标离散化为 20x20 网格仅需 9 个 token,效率高。

亮点与洞察

  • IQA + Grounding 的交叉创新:将 referring/grounding 引入 IQA 是一个自然但之前未被探索的交叉方向。
  • 自动标注流水线:四阶段流水线高度自动化,可适用于其他需要空间标注的低级视觉任务。
  • 数据集贡献:GIQA-160K 包含 16.7 万标注样本,是首个带空间定位的 IQA 数据集。

局限性 / 可改进方向

  • 标注流水线依赖多个模型(Llama3, Grounding DINO, Q-Instruct),错误可能逐级累积
  • 20x20 网格的空间分辨率有限,对小区域的质量问题定位精度不高
  • 仅在 7B 模型上验证,更大模型的效果未知
  • 训练使用的质量描述来自已有 IQA 数据集,覆盖的质量问题类型有限

相关工作与启发

  • vs Q-Instruct: 纯文本 IQA,不支持空间定位;本文在其输出上增加空间标注
  • vs Grounding DINO: 用于检测标注流水线,但无法直接做 IQA

评分

  • 新颖性: ⭐⭐⭐⭐ IQA + Grounding 的任务定义新颖,但方法本身(SFT微调MLLM)较常规
  • 实验充分度: ⭐⭐⭐⭐ 多模型验证 + 消融,但缺少与专业 IQA 方法的对比
  • 写作质量: ⭐⭐⭐⭐ 标注流水线描述详细
  • 价值: ⭐⭐⭐⭐ 数据集和任务定义的贡献大于方法本身