Grounding-IQA: Grounding Multimodal Language Models for Image Quality Assessment¶
会议: ICLR 2026
arXiv: 2411.17237
代码: https://github.com/zhengchen1999/Grounding-IQA (有)
领域: 目标检测 / 多模态VLM / 图像质量评估
关键词: 图像质量评估, 空间定位, 多模态LLM, 细粒度感知, grounding
一句话总结¶
将空间定位(referring + grounding)与图像质量评估结合,构建 GIQA-160K 数据集训练多模态 LLM 生成带有边界框的质量描述和空间 VQA,在细粒度质量感知上显著优于通用 MLLM。
研究背景与动机¶
- 领域现状:图像质量评估(IQA)已从传统指标(PSNR/SSIM)发展到基于多模态 LLM 的语义 IQA(如 Q-Instruct),能生成自然语言描述的质量评估。
- 现有痛点:现有 IQA 方法只给出全图级别的质量描述(如"图像整体模糊"),无法精确指出哪个区域有什么质量问题。对于复杂图像(如部分区域清晰、部分模糊),全图描述过于粗糙。
- 核心矛盾:IQA 需要细粒度的空间定位能力,但现有 IQA 数据集没有空间标注,MLLM 的空间感知能力在低级视觉任务上未被充分利用。
- 本文要解决什么? (a) 构建带空间标注的 IQA 数据集,(b) 训练 MLLM 同时进行质量评估和空间定位。
- 切入角度:定义两个新子任务——GIQA-Description(带框的质量描述)和 GIQA-VQA(带空间信息的质量 QA)。
- 核心idea一句话:让 IQA 模型不仅说"图像模糊",还要指出"台球桌区域(bbox)是清晰的,但背景区域(bbox)是模糊的"。
方法详解¶
整体框架¶
四阶段自动标注流水线构建 GIQA-160K 数据集,然后在该数据集上微调 MLLM(如 mPLUG-Owl2)。
关键设计¶
- 自动标注流水线(4 阶段):
- Stage 1: Llama3 从质量描述中提取对象标签三元组(描述短语, 质量, 效果)
- Stage 2: Grounding DINO 用描述短语(而非对象名)检测边界框——更精确
- Stage 3: IQA-Filter 用 Q-Instruct 验证检测到的框是否真的有指定质量问题 + Box-Merge 合并碎框
-
Stage 4: 坐标离散化为网格索引(20x20 网格),用最多 9 个 token 表示一个框
-
GIQA-VQA 生成:
- 做什么:从 GIQA-DES 的描述中自动生成带空间信息的 QA 对
- 核心思路:用 LLM 生成两类问题——Yes/No 问题(约 5 万)和 What/Why/How 开放问题(约 5 万),确保问题引用带框的实体。
-
设计动机:VQA 格式更灵活,支持 referring(给定位置问质量)和 grounding(给定质量问位置)两个方向。
-
多任务训练:
- 做什么:同时训练描述和 VQA 两个任务
- 核心思路:在 GIQA-160K 上用标准 SFT 微调,损失为自回归 LM 损失。
- 设计动机:消融显示多任务训练(DES + VQA)在两个任务上都优于单任务训练。
实验关键数据¶
主实验(GIQA-Bench, mPLUG-Owl2-7B)¶
| 指标 | 微调前 | 微调后 | 提升 |
|---|---|---|---|
| BLEU@4 | 3.62 | 22.87 | +19.25 |
| LLM-Score | 48.25 | 63.00 | +14.75 |
| mIoU (框定位) | N/A | 0.5955 | - |
| VQA 总准确率 | 56.3% | 74.2% | +17.9% |
跨模型对比¶
| 模型 | mIoU | BLEU@4 | VQA 总准确率 |
|---|---|---|---|
| LLaVA-v1.5-7B | 0.528 | 19.02 | 68.5% |
| LLaVA-v1.6-7B | 0.598 | 19.17 | 72.5% |
| mPLUG-Owl2-7B | 0.596 | 22.87 | 74.2% |
消融实验¶
| 配置 | Tag-Recall | LLM-Score | VQA 准确率 |
|---|---|---|---|
| Only-DES | 0.550 | 61.75 | 59.0% |
| Only-VQA | 0.328 | 38.50 | 72.2% |
| GIQA-160K (DES+VQA) | 0.547 | 63.00 | 74.2% |
关键发现¶
- 多任务训练在 VQA 准确率上比 Only-VQA 提升 2.0%,在描述质量上比 Only-DES 提升 1.25 LLM-Score
- 框精化(IQA-Filter + Box-Merge)将 mIoU 从 0.562 提升到 0.585
- 坐标离散化为 20x20 网格仅需 9 个 token,效率高。
亮点与洞察¶
- IQA + Grounding 的交叉创新:将 referring/grounding 引入 IQA 是一个自然但之前未被探索的交叉方向。
- 自动标注流水线:四阶段流水线高度自动化,可适用于其他需要空间标注的低级视觉任务。
- 数据集贡献:GIQA-160K 包含 16.7 万标注样本,是首个带空间定位的 IQA 数据集。
局限性 / 可改进方向¶
- 标注流水线依赖多个模型(Llama3, Grounding DINO, Q-Instruct),错误可能逐级累积
- 20x20 网格的空间分辨率有限,对小区域的质量问题定位精度不高
- 仅在 7B 模型上验证,更大模型的效果未知
- 训练使用的质量描述来自已有 IQA 数据集,覆盖的质量问题类型有限
相关工作与启发¶
- vs Q-Instruct: 纯文本 IQA,不支持空间定位;本文在其输出上增加空间标注
- vs Grounding DINO: 用于检测标注流水线,但无法直接做 IQA
评分¶
- 新颖性: ⭐⭐⭐⭐ IQA + Grounding 的任务定义新颖,但方法本身(SFT微调MLLM)较常规
- 实验充分度: ⭐⭐⭐⭐ 多模型验证 + 消融,但缺少与专业 IQA 方法的对比
- 写作质量: ⭐⭐⭐⭐ 标注流水线描述详细
- 价值: ⭐⭐⭐⭐ 数据集和任务定义的贡献大于方法本身