跳转至

Bridging the Perception Gap in Image Super-Resolution Evaluation

会议: CVPR 2026
arXiv: 2503.13074
代码: 项目页面 (有)
领域: 图像超分辨率 / 图像质量评估
关键词: 超分辨率评估, 图像质量指标, 感知差距, 相对质量指数, 用户研究

一句话总结

通过大规模用户研究揭示现有 SR 评估指标(PSNR、SSIM、LPIPS 等)与人类感知严重不一致,分析其内在缺陷后提出极简但有效的 RQI(Relative Quality Index)框架,通过学习图像对之间的相对质量差异实现更可靠的 SR 评估,且可作为损失函数指导 SR 训练。

研究背景与动机

领域现状: SR 技术快速发展(RealESRGAN → SwinIR → StableSR → SeeSR),模型输出质量越来越高,但评估指标长期未变。

现有痛点: 研究者对评估指标日益不信任——高指标分数的模型不一定产生更好的视觉效果。大量工作不得不做用户研究或堆叠多个指标来验证。

核心矛盾: SR 模型进化快但评估标准停滞,指标与人类感知之间存在三类固有挑战: - (a) 失真类 FR 指标(PSNR、SSIM)偏好平滑平均解,与感知偏好相反 - (b) 感知类 FR 指标(LPIPS、DISTS)在 GT 质量不佳时失效 - (c) 无参考指标(NIQE、CLIP-IQA)无法评估保真度 - (d) 高质量 SR 输出之间差异微妙,现有指标无法区分

本文要解决: 设计一个能同时应对上述四个挑战的 SR 评估框架。

切入角度: 用相对质量差异替代绝对质量分数——允许任意图像(包括有退化的)作为参考,学习目标-参考之间的质量落差。

核心idea: 既然 GT 可能不完美、SR 输出可能超越 GT,那就不要假设参考是完美的,而是学习相对质量关系。

方法详解

整体框架

训练: 从 IQA 数据集构建稠密图像对 \(\{I_i, I_j\}\) → 计算相对质量标签 \(q_i - q_j\)(MOS 差值) → 训练 FR-IQA 模型预测该差值。 评估: 给定 SR 输出 \(I_{HR}\) 和 GT \(I_{GT}\) → 模型输出 \(s = f_{RQI}(I_{HR}, I_{GT})\),正值表示 SR 质量优于 GT。

关键设计

  1. RQI 训练框架的三个关键特性:

    • (a) 非对称性: 交换输入顺序产生相反结果 \(f_{RQI}(I_i, I_j) = -f_{RQI}(I_j, I_i)\),不同于传统 FR 指标的对称性
    • (b) 相对差异: 不预测绝对质量分数,而是学习两张图像之间的感知质量落差。允许参考图像本身有退化,解决 GT 不完美的问题
    • (c) 稠密配对比较: 传统方法仅构建 \(\{I_0, I_i\}\) 对(参考 vs 退化),RQI 构建任意 \(\{I_i, I_j\}\) 对(退化 vs 退化),大幅增加训练样本且天然包含微妙质量差异
    • 设计动机: 三个特性分别对应 Goal 1(保真度评估)、Goal 2(不完美 GT 鲁棒性)、Goal 3(细粒度区分)
  2. 训练细节:

    • 训练目标: Huber loss 回归相对差值 \(L = \begin{cases} \frac{1}{2}(\hat{y}_{ij} - (q_i - q_j))^2, & \text{if } |\hat{y}_{ij} - ..| \leq \delta \\ \delta(|\hat{y}_{ij} - ..| - \frac{1}{2}\delta), & \text{otherwise} \end{cases}\)
    • 标签归一化到 \([-1, 1]\),去除最后回归层的激活函数以支持负值输出
    • 设计动机: Huber loss 对小差异提供平滑梯度,在微妙质量差异上训练更稳定
  3. 通用框架设计:

    • 可集成任意 FR-IQA 模型(AHIQ、MANIQA、TOPIQ)
    • 可在任意 IQA 数据集上训练(Kadid-10K、PieAPP、PIPAL)
    • 无需收集 SR 特定数据,零样本迁移到 SR 评估
    • 设计动机: 通用性是关键——不是设计一个新指标,而是提升现有指标的范式

损失函数 / 训练策略

  • Huber loss 回归,\(\delta\) 为平滑阈值
  • 8:2 训练/验证比例,场景不重叠
  • 验证集最佳模型零样本迁移评估

实验关键数据

主实验(与人类感知一致性,SRCC 指标)

指标 DIV2K RealSR DRealSR Set5&14
SSIM -0.348 -0.220 -0.354 -0.321
PSNR -0.079 -0.116 -0.355 -0.204
LPIPS 0.415 0.008 -0.141 0.282
CLIP-IQA 0.593 0.377 0.268 0.642
AFINE 0.581 0.449 0.484 0.578
DeQA-Score 0.613 0.452 0.437 0.699
RQI 0.744 0.504 0.529 0.664

消融实验(RQI 框架有效性)

训练集 / 模型 传统 FR RQI 提升
PIPAL / MANIQA (DIV2K) 0.624 0.744 +0.120
PIPAL / TOPIQ (DRealSR) 0.042 0.357 +0.315
Kadid / AHIQ (Set5&14) 0.292 0.426 +0.134

关键发现

  • PSNR 和 SSIM 在所有数据集上与人类感知负相关!这是对 SR 领域评估惯例的严重挑战
  • LPIPS 在真实世界 SR 数据集(RealSR、DRealSR)上接近零相关
  • NR 指标(NIQE、CLIP-IQA)整体优于 FR 指标,但无法评估保真度
  • RQI 框架一致性地提升所有模型在所有数据集上的表现
  • RQI 作为损失函数训练 SR 模型可同时提升感知质量和结构保真度

亮点与洞察

  • 大规模用户研究(7 个 SR 模型 × 5 个基准 × 15 参与者/对比)提供了权威的人类偏好数据
  • "PSNR/SSIM 与人类感知负相关"的发现对 SR 领域是当头棒喝
  • RQI 框架的巧妙之处在于"简单到极致"——只改变训练数据构建方式和目标定义,不改架构
  • 可作为损失函数的双重用途增加了实用价值

局限与展望

  • 用户研究的参与者数量和多样性可能影响结论的普遍性
  • 当前仅在 ×4 SR 任务上验证,其他放大比例、降质类型待测
  • RQI 仍需 GT 图像作为参考,完全无参考的场景不适用
  • MOS 差值作为线性近似可能在极端质量差异下不够准确

相关工作与启发

  • AFINE 也考虑了不完美 GT 假设,但需要 SR 特定数据训练,RQI 无此限制
  • DeQA-Score 等 LLM 指标性能好但计算成本高,RQI 用传统架构就能达到类似水平
  • 启示:评估指标的范式创新(如何定义"好")可能比模型创新更重要

评分

  • 新颖性: ⭐⭐⭐⭐ RQI 相对质量框架思路简洁而深刻,但核心 idea 不复杂
  • 实验充分度: ⭐⭐⭐⭐⭐ 大规模用户研究 + 系统性分析 + 多模型多数据集 + 作为损失函数
  • 写作质量: ⭐⭐⭐⭐⭐ 问题分析透彻,三个 Goal 的抽象精准
  • 价值: ⭐⭐⭐⭐⭐ 对 SR 评估领域有根本性推进,"PSNR/SSIM 负相关"将改变社区惯例

相关论文