Rethinking Image Super-Resolution from Training Data Perspectives¶

会议: ECCV 2024
arXiv: 2409.00768
代码: https://github.com/gohtanii/DiverSeg-dataset (有)
领域: 图像恢复
关键词: 超分辨率, 训练数据, 数据集构建, 图像质量评估, 目标多样性

一句话总结¶

从训练数据角度重新思考图像超分辨率，提出自动化数据评估流水线构建 DiverSeg 数据集（低分辨率但高质量、目标多样的图像），证明在该数据集上训练的 SR 模型可以超越使用高分辨率数据集（DF2K、LSDIR）训练的模型。

研究背景与动机¶

图像超分辨率（SR）领域在过去十年取得了巨大进展，但主要集中在网络架构的改进上。训练数据方面，传统依赖 DIV2K、Flickr2K 等高分辨率数据集（合称 DF2K），近年来 LSDIR 进一步扩展到 84,991 张高分辨率图像。

现有数据集构建的两个核心标准：

分辨率与质量：要求 HD/2K/4K 高分辨率，手动排除压缩伪影

多样性：包含多种场景、光照、纹理

核心矛盾：收集无压缩的高分辨率图像既困难又昂贵，导致数据集难以大规模扩展。ImageNet 有 128 万张图像但包含低分辨率和 JPEG 压缩图像。

关键问题：训练数据到底需要什么条件？高分辨率是否真的必要？

核心发现：三个因素正向影响 SR 性能：(i) 低压缩伪影、(ii) 图像内高多样性（更多目标）、(iii) 大规模数据集。低分辨率但满足这些条件的图像甚至优于高分辨率数据。

方法详解¶

整体框架¶

提出自动化图像评估流水线，从大规模低分辨率数据集（ImageNet、Places365、PASS）中筛选构建 SR 训练数据集 DiverSeg。流水线包含两个步骤：源选择（Source Selection） 和 基于目标的过滤（Object-based Filtering）。

关键设计¶

源选择 — 基于 Blockiness 分布的质量估计：
- 核心思路：通过估计数据集的 JPEG 压缩质量来筛选高质量数据源
- 使用 blockiness 度量 计算每张图像的块效应值 \(B(x)\)，通过核密度估计得到数据集级别的 blockiness 分布 \(p_{X,q}(b)\)
- Blockiness 通过子带 DCT 系数的变化来量化： \(B(x) = \sum_{i=1}^{P}\sum_{j=1}^{P}\left|\frac{\bar{V}_{crop}(i,j) - \bar{V}(i,j)}{\bar{V}(i,j)}\right|\)
- 将目标数据集的分布与参考数据集（DF2K）在不同质量级别下的基准分布通过 KL 散度进行比较，估计质量： \(\hat{q}_X = \sum_{q \in S} q \frac{\exp(-D_{KL}(p_{X,1.0} || p_{Z,q}))}{\sum_{q' \in S} \exp(-D_{KL}(p_{X,1.0} || p_{Z,q'}))}\)
- 结果：ImageNet 质量 95.5%，Places365 质量 75.0%（被过滤掉），PASS 质量 99.8%
- 设计动机：传统方法需要人工逐张检查图像质量，而本方法通过统计分布自动估计整个数据集的质量，无需人工评估
基于目标的过滤 — 图像多样性筛选：
- 核心假设：包含更多目标区域的图像对 SR 训练更有效
- 两种过滤方法：
  - 基于分割的过滤：使用 SAM (ViT-H) 计算分割 mask 数量 \(R(x)\)，阈值 \(\theta = 100\)，从 ImageNet 中筛选出 260K 图像
  - 基于检测的过滤：使用 Detic (ViT-B) 计算检测到的目标数 \(R(x)\)，阈值 \(\theta = 18\)，同样得到 260K 图像
- 设计动机：手动质量评估时，评估者倾向于关注细节丰富的图像，这间接排除了目标数少的图像。本方法将这一隐含偏好显式化
DiverSeg 数据集：
- DiverSeg-I：从 ImageNet 筛选的 259K 图像
- DiverSeg-P：从 PASS 筛选的 267K 图像
- DiverSeg-IP：两者联合的 527K 图像
- 特点：低分辨率（平均 233K 像素 vs DF2K 的 2.8M），但高质量（低 blockiness）、高多样性（平均 146 个分割 mask vs DF2K 的 103）

损失函数 / 训练策略¶

按照各 SR 模型原始论文的训练设置进行训练（MSRResNet、EDSR、RCAN、SwinIR、HAT），仅替换训练数据集。使用标准的 L1 或 L2 损失。关键在于验证数据集质量的影响，而非改变训练策略。

实验关键数据¶

主实验¶

×4 SR 性能对比（PSNR/SSIM，5 个基准数据集）：

模型	训练数据	Set5	BSD100	Urban100	Manga109
SwinIR	DF2K	32.92/0.9044	27.92/0.7489	27.45/0.8254	32.03/0.9260
SwinIR	LSDIR	32.86/0.9036	27.92/0.7492	27.79/0.8331	31.98/0.9262
SwinIR	DiverSeg-I	32.97/0.9053	27.98/0.7508	27.83/0.8336	32.34/0.9283
HAT	DF2K	33.03/0.9056	27.99/0.7514	27.93/0.8365	32.44/0.9292
HAT	LSDIR	32.93/0.9053	28.01/0.7525	28.45/0.8469	32.57/0.9306
HAT	DiverSeg-I	33.15/0.9071	28.07/0.7542	28.51/0.8477	32.90/0.9325
RCAN	DF2K	32.50/0.8990	27.75/0.7421	26.73/0.8058	31.17/0.9165
RCAN	DiverSeg-I	32.70/0.9012	27.81/0.7443	27.03/0.8116	31.58/0.9210

消融实验¶

配置	关键指标(Urban100 PSNR)	说明
ImageNet全量(1.28M)	较低	含大量低质量压缩图像
ImageNet过滤(260K)	提升	去除低质量后性能改善
DiverSeg-I(260K, θ=100)	最优	高质量+高多样性双重过滤
Places365	最差	质量仅75%，大量压缩伪影
PASS(1.44M)	好	质量99.8%，但多样性不足
DiverSeg-P(267K)	优于DF2K	从PASS过滤后多样性提升
阈值θ=0(无过滤)	基线	与全量数据相比
阈值θ=100	最优	目标多样性过滤的甜点

关键发现¶

高分辨率非必需：低分辨率（~233K pixels）但高质量的数据集可以超越高分辨率数据集（DF2K ~2.8M pixels）
压缩伪影有害：Places365 的低质量（75%）导致 SR 性能最差，验证了压缩伪影对 SR 训练的负面影响
目标多样性重要：图像内更多目标→更多纹理和边缘→更好的 SR 性能
scale效应：在同等质量下，更多图像通常带来更好性能
DiverSeg-I 在所有 5 个 SR 模型上均超越 DF2K，且对 CNN 和 Transformer 架构均有效

亮点与洞察¶

颠覆传统认知：证明了高分辨率图像不是 SR 训练的必要条件，这极大地降低了构建 SR 数据集的门槛
自动化流水线：完全自动化的数据集构建流程，消除了耗时的人工质量评估
Blockiness 质量估计：巧妙地利用 KL 散度比较 blockiness 分布来估计数据集质量，无需逐张分析
普适性强：方法适用于所有测试的 SR 模型（3 个 CNN + 2 个 Transformer），不依赖特定架构
实际意义大：未来可以轻松从任何大规模图像数据集中自动筛选 SR 训练数据

局限与展望¶

目标过滤的阈值（θ=100/18）是手动设定的，未提供自动选择策略
仅在 ×4 SR 上验证，未覆盖 ×2、×8 等其他倍率
SAM 和 Detic 模型本身的计算开销较大，处理百万级数据集需要可观资源
未分析图像语义类别的分布对 SR 的影响（如自然场景 vs 城市场景）
未考虑与 data augmentation 策略的交互效应

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐