Grounding-IQA: Grounding Multimodal Language Models for Image Quality Assessment¶

会议: ICLR 2026
arXiv: 2411.17237
代码: https://github.com/zhengchen1999/Grounding-IQA (有)
领域: 目标检测 / 多模态VLM / 图像质量评估
关键词: 图像质量评估, 空间定位, 多模态LLM, 细粒度感知, grounding

一句话总结¶

将空间定位（referring + grounding）与图像质量评估结合，构建 GIQA-160K 数据集训练多模态 LLM 生成带有边界框的质量描述和空间 VQA，在细粒度质量感知上显著优于通用 MLLM。

研究背景与动机¶

领域现状：图像质量评估（IQA）已从传统指标（PSNR/SSIM）发展到基于多模态 LLM 的语义 IQA（如 Q-Instruct），能生成自然语言描述的质量评估。
现有痛点：现有 IQA 方法只给出全图级别的质量描述（如"图像整体模糊"），无法精确指出哪个区域有什么质量问题。对于复杂图像（如部分区域清晰、部分模糊），全图描述过于粗糙。
核心矛盾：IQA 需要细粒度的空间定位能力，但现有 IQA 数据集没有空间标注，MLLM 的空间感知能力在低级视觉任务上未被充分利用。
本文要解决什么？ (a) 构建带空间标注的 IQA 数据集，(b) 训练 MLLM 同时进行质量评估和空间定位。
切入角度：定义两个新子任务——GIQA-Description（带框的质量描述）和 GIQA-VQA（带空间信息的质量 QA）。
核心idea一句话：让 IQA 模型不仅说"图像模糊"，还要指出"台球桌区域（bbox）是清晰的，但背景区域（bbox）是模糊的"。

方法详解¶

整体框架¶

四阶段自动标注流水线构建 GIQA-160K 数据集，然后在该数据集上微调 MLLM（如 mPLUG-Owl2）。

关键设计¶

自动标注流水线（4 阶段）:
Stage 1: Llama3 从质量描述中提取对象标签三元组（描述短语, 质量, 效果）
Stage 2: Grounding DINO 用描述短语（而非对象名）检测边界框——更精确
Stage 3: IQA-Filter 用 Q-Instruct 验证检测到的框是否真的有指定质量问题 + Box-Merge 合并碎框
Stage 4: 坐标离散化为网格索引（20x20 网格），用最多 9 个 token 表示一个框
GIQA-VQA 生成:
做什么：从 GIQA-DES 的描述中自动生成带空间信息的 QA 对
核心思路：用 LLM 生成两类问题——Yes/No 问题（约 5 万）和 What/Why/How 开放问题（约 5 万），确保问题引用带框的实体。
设计动机：VQA 格式更灵活，支持 referring（给定位置问质量）和 grounding（给定质量问位置）两个方向。
多任务训练:
做什么：同时训练描述和 VQA 两个任务
核心思路：在 GIQA-160K 上用标准 SFT 微调，损失为自回归 LM 损失。
设计动机：消融显示多任务训练（DES + VQA）在两个任务上都优于单任务训练。

实验关键数据¶

主实验（GIQA-Bench, mPLUG-Owl2-7B）¶

指标	微调前	微调后	提升
BLEU@4	3.62	22.87	+19.25
LLM-Score	48.25	63.00	+14.75
mIoU (框定位)	N/A	0.5955	-
VQA 总准确率	56.3%	74.2%	+17.9%

跨模型对比¶

模型	mIoU	BLEU@4	VQA 总准确率
LLaVA-v1.5-7B	0.528	19.02	68.5%
LLaVA-v1.6-7B	0.598	19.17	72.5%
mPLUG-Owl2-7B	0.596	22.87	74.2%

消融实验¶

配置	Tag-Recall	LLM-Score	VQA 准确率
Only-DES	0.550	61.75	59.0%
Only-VQA	0.328	38.50	72.2%
GIQA-160K (DES+VQA)	0.547	63.00	74.2%

关键发现¶

多任务训练在 VQA 准确率上比 Only-VQA 提升 2.0%，在描述质量上比 Only-DES 提升 1.25 LLM-Score
框精化（IQA-Filter + Box-Merge）将 mIoU 从 0.562 提升到 0.585
坐标离散化为 20x20 网格仅需 9 个 token，效率高。

亮点与洞察¶

IQA + Grounding 的交叉创新：将 referring/grounding 引入 IQA 是一个自然但之前未被探索的交叉方向。
自动标注流水线：四阶段流水线高度自动化，可适用于其他需要空间标注的低级视觉任务。
数据集贡献：GIQA-160K 包含 16.7 万标注样本，是首个带空间定位的 IQA 数据集。

局限性 / 可改进方向¶

标注流水线依赖多个模型（Llama3, Grounding DINO, Q-Instruct），错误可能逐级累积
20x20 网格的空间分辨率有限，对小区域的质量问题定位精度不高
仅在 7B 模型上验证，更大模型的效果未知
训练使用的质量描述来自已有 IQA 数据集，覆盖的质量问题类型有限

评分¶

新颖性: ⭐⭐⭐⭐ IQA + Grounding 的任务定义新颖，但方法本身（SFT微调MLLM）较常规
实验充分度: ⭐⭐⭐⭐ 多模型验证 + 消融，但缺少与专业 IQA 方法的对比
写作质量: ⭐⭐⭐⭐ 标注流水线描述详细
价值: ⭐⭐⭐⭐ 数据集和任务定义的贡献大于方法本身