跳转至

ME-IQA: Memory-Enhanced Image Quality Assessment via Re-Ranking

日期: 2026-03-21
arXiv: 2603.20785
代码: 无
领域: 多模态/VLM
关键词: Image Quality Assessment, VLM, Memory Bank, Thurstone Model, Test-time Scaling, Discrete Collapse

一句话总结

提出 ME-IQA,一个即插即用的测试时记忆增强重排序框架,通过混合记忆库检索 + VLM 作为概率比较器 + Thurstone Case V 融合,缓解推理型 VLM 在 IQA 任务中的离散坍缩问题。

研究背景与动机

  1. 领域现状: 推理型 VLM(如 Q-Insight、VisualQuality-R1、EvoQuality)通过生成推理链再输出质量分数,在 IQA 任务上表现优异,泛化性好于传统回归方法。
  2. 现有痛点: 这些模型严重遭受"离散坍缩"(discrete collapse)——不同质量的图像被映射到少数几个离散分数(如 3.0, 4.0, 5.0),丧失了对细粒度失真的敏感性。
  3. 核心矛盾: VLM 预训练目标是生成离散 token,而非连续的感知量;当被强制输出数值时,倾向于选择文本上显著的整数,导致感知精度被量化丢失。
  4. 本文要解决什么: 在不修改模型训练、不改架构的前提下(纯测试时),将 VLM 的粗糙离散分数转化为密集、失真敏感的连续预测。
  5. 切入角度: 借鉴人类感知中的"上下文依赖记忆"机制——人类判断质量时会隐式比较相似的记忆样本,而非绝对打分。结合 RAG 思想,将记忆注入 IQA 流程。
  6. 核心 idea 一句话: 构建混合记忆库(离线锚点 + 在线对比),用推理摘要做检索键,VLM 做成对概率比较器,Thurstone Case V 融合序数证据与初始分数。

方法详解

整体框架

在线测试流程:对每张查询图 \(\mathbf{x}_i\),VLM 先生成推理链 \(\tilde{\mathbf{r}}_i\) 和初始分数 \(\tilde{s}_i\);经 5 参数 logistic 映射到目标尺度得 \(s_i\);将推理压缩为质量描述 \(\mathbf{r}_i\) 并编码,从混合记忆 \(\mathcal{M} = \mathcal{M}_A \cup \mathcal{M}_C\) 中检索邻域 \(\mathcal{N}\);VLM 作为比较器估计成对偏好概率;Thurstone 融合得到精炼分数 \(s_i^*\);若 \(|s_i^* - s_i| > \epsilon\) 则触发反思并将案例合并到 CM。

关键设计

1. 混合记忆库(Hybrid Memory Bank)

  • 做什么: 存储带有质量描述和分数的图像案例,供检索比较使用
  • 核心思路: Anchor Memory (AM) 离线从标注集(如 KONIQ-10K)构建,提供跨质量范围的稳定脚手架;Contrast Memory (CM) 在线从已处理查询中动态增长,捕获分布偏移和困难案例
  • 设计动机: 静态锚点(如 Compare2Score)无法覆盖长尾/新型失真,动态记忆可自适应补充

2. 推理感知检索(Reasoning-Aware Retrieval)

  • 做什么: 将 VLM 推理链压缩为质量描述,编码后做余弦相似度检索
  • 核心思路: AM 中做 GT 分层检索(分 \(B=5\) 个 bin,每 bin 取 \(k_A\) 个最近邻)保证覆盖度;CM 中取 top-\(K_C\) 最近邻
  • 设计动机: 推理摘要比原始图像嵌入更能捕捉质量语义(消融实验证实 Reasoning Embeddings 优于 Image Embeddings)

3. VLM 作为概率比较器 + Thurstone 融合

  • 做什么: 对查询与每个邻居做二元比较,提取 token "A" 的概率作为软偏好 \(y_{ij}\)
  • 核心思路: Thurstone Case V 模型下 \(p_{ij} = \Phi((s_i^* - s_j^*)/\sigma)\);优化 BCE + 二次先验,闭式近似解为 \(s_i^* = \frac{\sum \mu_{ij} + \lambda s_i}{K + \lambda}\),其中 \(\mu_{ij} = s_j^* + \Phi^{-1}(y_{ij})\)
  • 设计动机: 将 VLM 的比较能力(VLM 擅长相对比较)转化为绝对分数,既利用序数证据又保持对初始分数的保守

4. 门控反思与 CM 合并

  • 做什么: 当 \(|s_i^* - s_i| > \epsilon\) 时触发反思,VLM 重新审视推理生成修正描述 \(\mathbf{r}_i^*\)
  • 核心思路: 反思机制纠正初始推理中的偏差;合并到 CM 使未来遇到类似困难案例时有更好的参照
  • 设计动机: 类似人类"从错误中学习",持续提升记忆质量

损失函数 / 训练策略

ME-IQA 是纯测试时框架,无需训练。关键超参数: - 5 参数 logistic 映射: \(s_i = \beta_1(\frac{1}{2} - \frac{1}{1+\exp(\beta_2(\tilde{s}_i - \beta_3))}) + \beta_4 \tilde{s}_i + \beta_5\)(离线从标注集拟合) - Thurstone 融合先验: \(\lambda = 0.01\),反思门限: \(\epsilon = 0.75\) - 邻域大小: \(K = 32\)(AM 16 + CM 16)

实验关键数据

主实验

Backbone 模式 SPAQ AGIQA LIVEW KADID PIPAL TID2013 CSIQ WAVG (PLCC)
EvoQuality Baseline 0.903 0.827 0.860 0.744 0.602 0.615 0.821 0.748
EvoQuality ME-IQA 0.925 0.847 0.887 0.783 0.642 0.643 0.851 0.777
Q-Insight Baseline 0.901 0.823 0.859 0.732 0.604 0.477 0.749 0.714
Q-Insight ME-IQA 0.922 0.840 0.881 0.770 0.635 0.520 0.777 0.744
GPT-5 Baseline 0.879 0.815 0.851 0.715 0.539 0.399 0.701 0.676
GPT-5 ME-IQA 0.891 0.847 0.860 0.739 0.566 0.447 0.760 0.706

消融实验

AM CM AM Stratified PLCC (WAVG) SRCC (WAVG)
0.698 0.661
0.702 0.670
0.714 0.682
0.717 0.685
0.726 0.696

检索策略消融(backbone: VisualQuality-R1):

检索策略 PLCC SRCC
Random Retrieval 0.703 0.670
Image as Embeddings 0.706 0.677
Reasoning as Embeddings 0.726 0.696

关键发现

  1. 一致性增益: ME-IQA 在 5 个 VLM baseline(含闭源 GPT-5、Doubao)上均有稳定提升,WAVG PLCC 提升约 2-4 个百分点
  2. 合成数据集增益更大: KADID/PIPAL/TID2013 等合成失真数据集改善最显著,说明序数证据对细粒度失真差异最有效
  3. 离散坍缩缓解: JS 散度从 ~0.46 降至 ~0.08,有效 bin 数从 ~10 升至 ~60+
  4. 效率优势: ME-IQA@32 比 Mean@64/Maj@64 快 2.4×,精度更高
  5. 推理嵌入 >> 图像嵌入: 用推理摘要做检索键显著优于用图像特征

亮点与洞察

  1. 精准定位了推理型 VLM 的"离散坍缩"问题并给出量化分析(JS 散度、effective bins)
  2. Thurstone Case V 的闭式近似非常优雅,将成对偏好转化为伪观测后变成岭回归
  3. 混合记忆设计(稳定的 AM + 自适应的 CM)兼顾覆盖度和适应性
  4. 纯测试时、即插即用,无需重训练——实用价值极高
  5. 对闭源模型(GPT-5)也有效,证明框架的通用性

局限性 / 可改进方向

  1. AM 固定来自 KONIQ-10K,对全新领域(如医学影像)可能需要换锚点集
  2. CM 增长需要管理策略(相似度剪枝),大规模流式场景的记忆效率待验证
  3. 每张图需要 32 次成对比较,推理成本仍然较高(~14 秒/图)
  4. 5 参数 logistic 映射需要预先在标注集上拟合,存在轻微的领域适配需求
  5. 未探索非 Thurstone 的其他融合模型(如 Bradley-Terry)

相关工作与启发

vs Compare2Score: Compare2Score 使用静态锚点做成对比较,ME-IQA 用动态混合记忆 + 推理感知检索,解决了静态锚点的覆盖不足问题 vs Mean@64 / Maj@64: 这些简单的多次采样聚合策略在 2.4× 计算量下仍不如 ME-IQA@32,说明纯采样无法解决离散坍缩的根本问题

评分

维度 分数 (1-5) 说明
新颖性 ⭐⭐⭐⭐ 离散坍缩的分析+记忆增强重排序的组合有新意,Thurstone 融合的闭式解漂亮
实验充分度 ⭐⭐⭐⭐⭐ 5 个 VLM baseline、7 个 benchmark、多种消融、分布分析、与 test-time scaling 对比
写作质量 ⭐⭐⭐⭐ 动机清晰、公式推导严谨、图表丰富
价值 ⭐⭐⭐⭐ 即插即用的测试时方法有很强实用性,但应用场景较窄(IQA)