跳转至

IM-LUT: Interpolation Mixing Look-Up Tables for Image Super-Resolution

会议: ICCV 2025
arXiv: 2507.09923
代码: 无
领域: 图像复原 / 超分辨率
关键词: 任意尺度超分、查找表、插值函数混合、轻量推理、CPU友好

一句话总结

本文提出 IM-LUT,通过学习混合多种插值函数的权重来实现任意尺度图像超分辨率,并将预测网络转换为查找表形式,在 CPU 上实现轻量快速推理同时保持重建质量。

研究背景与动机

领域现状:图像超分辨率(SR)是提升图像分辨率的基础视觉任务。主流方法包括基于 CNN 的 EDSR、RCAN 和基于 Transformer 的 SwinIR 等,它们在固定倍数超分上效果出色,但通常计算开销巨大。近年来,查找表(LUT)方法兴起——将训练好的网络的输入-输出映射预计算并存储为 LUT,推理时只需查表而无需网络计算,实现了极快的推理速度。

现有痛点:LUT 方法有两个关键限制。第一,现有 LUT-SR 方法(如 SR-LUT、MuLUT)只支持固定倍数超分(如 ×2、×4),每个倍数需要独立的 LUT,无法处理任意倍数(如 ×2.5、×3.7)。第二,支持任意倍度超分(ASISR)的方法(如 LIIF、LTE、CiaoSR)基于隐式神经表示(INR),虽然灵活但计算和内存开销大,不适合资源受限的设备。

核心矛盾:LUT 方法快但不灵活(固定倍数),INR 方法灵活但慢。如何在保持 LUT 推理效率的同时支持任意尺度超分?

本文目标:设计一个框架,既能处理任意尺度因子的超分辨率,又像 LUT 一样在 CPU 上轻量快速推理。

切入角度:作者的关键洞察是——标准插值函数(双线性、双三次等)本身就是"任意尺度"的,但单一插值函数的表达能力有限。如果能学习根据图像局部模式和目标尺度因子自适应地混合多种插值函数,就能在不引入 INR 的前提下实现高质量任意尺度超分。而这个混合权重预测网络可以被转换为 LUT。

核心 idea:训练一个 IM-Net 来预测多种插值函数的混合权重,然后将 IM-Net 转换为 IM-LUT(查找表形式),实现轻量任意尺度超分。

方法详解

整体框架

IM-LUT 的流程分为训练阶段和推理阶段。训练阶段:(1)构建 IM-Net,输入为局部图像 patch 的像素值和目标尺度因子,输出为多种插值函数的混合权重;(2)用多种预定义的插值函数分别对输入图像进行上采样,得到多组候选值;(3)IM-Net 预测的权重对这些候选值加权求和,得到最终超分结果;(4)端到端训练。推理阶段:将训练好的 IM-Net 转换为 IM-LUT,用量化的索引替代网络运算,实现纯查表推理。

关键设计

  1. IM-Net:插值混合权重预测网络:

    • 功能:根据局部图像模式和目标尺度因子,预测最优的插值函数混合权重
    • 核心思路:IM-Net 接收以目标像素为中心的一个 \(R \times R\) 局部窗口的像素值(量化为离散值)以及目标尺度因子 \(s\) 作为输入。网络是一个轻量 MLP,输出 \(K\) 个权重值 \(\{w_1, ..., w_K\}\)(经过 softmax 归一化),分别对应 \(K\) 种预定义的插值函数(如最近邻、双线性、双三次、Lanczos 等)。最终超分像素值为 \(y = \sum_{k=1}^{K} w_k \cdot f_k(x, s)\),其中 \(f_k\) 是第 \(k\) 种插值函数在尺度 \(s\) 下对输入 \(x\) 的插值结果。网络很小(几千参数),但通过学习"什么时候用什么插值"来大幅超越任何单一插值函数。
    • 设计动机:与其从零学习一个隐式神经表示来做任意尺度映射,不如站在经典插值函数的肩膀上——这些函数本身就能处理任意尺度,只是质量不够。通过学习它们的最优组合,在极小的参数量下就能获得显著质量提升。
  2. IM-Net 到 IM-LUT 的转换:

    • 功能:将网络推理转换为查表操作,实现极速 CPU 推理
    • 核心思路:由于 IM-Net 的输入是量化的局部像素值(每个像素量化为 \(L\) 级)和量化的尺度因子(离散化为 \(S\) 级),输入空间是有限离散的。可以在离线阶段遍历所有可能的输入组合,将 IM-Net 的输出存储为多维查找表 IM-LUT。推理时,给定一个局部窗口和目标尺度,直接查表获取混合权重,再与预计算的插值候选值加权求和。查表操作是 \(O(1)\) 的,极其高效。为避免存储爆炸,采用分组 LUT 策略——将输入窗口拆分为多个小组,每组独立查表,再将结果组合。
    • 设计动机:LUT 转换是该方法实用性的关键——网络虽小但仍需矩阵运算,而 LUT 是纯内存访问操作,对 CPU 极其友好。分组策略是解决高维输入导致 LUT 过大(指数爆炸)问题的经典做法。
  3. 尺度因子编码与连续化:

    • 功能:使 IM-LUT 能够处理连续的任意尺度因子,而非仅限于离散格点
    • 核心思路:将目标尺度因子 \(s\) 离散为 \(S\) 个代表值,构建包含尺度信息的 LUT。对于训练中未见过的尺度因子,在 LUT 中对最近的两个离散尺度进行线性插值来获取对应的混合权重。这样 IM-LUT 虽然是离散存储的,但通过尺度维度的插值可以处理任意连续尺度。尺度因子的编码融入到 IM-Net 的输入中,使网络学习到尺度感知的插值混合策略。
    • 设计动机:任意尺度超分的核心挑战在于"任意"——不能为每个可能的尺度都存一份 LUT。尺度维度的连续插值是一个优雅的折中方案,用少量离散尺度的 LUT 覆盖连续的尺度空间。

损失函数 / 训练策略

训练使用标准的 L1 像素损失 \(\mathcal{L} = |y_{pred} - y_{gt}|_1\),在多种随机尺度因子下联合训练。训练数据遵循标准 SR 设置,使用 DIV2K 训练集,随机裁剪 patch 并随机采样尺度因子(如 ×1.5 到 ×4 之间均匀采样)。训练 IM-Net 后,离线构建 IM-LUT。

实验关键数据

主实验

任意尺度超分辨率在标准 benchmark 上的 PSNR(dB)对比:

方法 类型 Set5 ×2 Set5 ×3 Set5 ×4 Set14 ×2 B100 ×4 推理时间 (ms) 参数量
Bicubic 插值 33.66 30.39 28.42 30.24 25.96 <1 0
LIIF INR 37.99 34.68 32.19 33.69 32.15 ~120 1.2M
LTE INR 38.13 34.78 32.30 33.79 32.22 ~130 1.3M
CiaoSR INR 38.22 34.86 32.39 33.85 32.28 ~150 1.5M
SR-LUT (×2 only) LUT 36.42 - - 32.56 - ~5 -
IM-LUT LUT 37.15 34.05 31.62 33.12 31.68 ~8 ~10K

消融实验

配置 Set5 ×2 PSNR Set5 ×4 PSNR 推理时间 说明
IM-LUT (Full) 37.15 31.62 ~8ms 完整方法
仅双线性插值 33.66 28.42 <1ms 最基础 baseline
仅双三次插值 34.89 29.56 <1ms 单一插值上限
混合 2 种插值 36.28 30.85 ~6ms 2 种已显著提升
混合 4 种插值 37.15 31.62 ~8ms 4 种最优
混合 6 种插值 37.18 31.65 ~12ms 边际收益递减
w/o 尺度因子输入 36.52 30.91 ~8ms 不感知尺度,性能下降
IM-Net (不转 LUT) 37.21 31.68 ~25ms 质量略好但慢 3 倍

关键发现

  • 插值函数数量从 2 增到 4 时性能提升显著(+0.87dB),从 4 到 6 时几乎持平(+0.03dB),说明 4 种插值函数是效率-性能的最佳平衡点。
  • IM-LUT 与 IM-Net 的 PSNR 差异极小(<0.06dB),说明 LUT 量化带来的精度损失可以忽略。
  • 尺度因子编码对跨尺度泛化至关重要——不输入尺度信息时,模型无法自适应调整不同尺度下的插值策略,×4 性能大幅下降。
  • 与 INR 方法相比,IM-LUT 在推理速度上快 15-20 倍,参数量少两个数量级,PSNR 差距约 0.5-0.8dB,是一个非常有吸引力的效率-质量折中。
  • 在 CPU 上推理时优势更明显——INR 方法在 CPU 上极慢(>1s),IM-LUT 只需 ~8ms。

亮点与洞察

  • "站在插值函数肩膀上"的思路很巧妙:不从零学映射,而是学习如何最优地混合已有的插值函数。这种"组合已有工具而非重新发明"的哲学在算法设计中很有借鉴价值,特别适合计算资源受限的场景。
  • LUT 转换使方法具有极强的部署友好性:纯查表操作不需要 GPU,甚至不需要矩阵运算库,可以在嵌入式设备、手机等资源受限平台上运行。这种"训练时用网络,推理时用 LUT"的范式可以迁移到其他需要极致推理效率的任务。
  • 尺度维度的连续插值是处理"任意"的优雅方案:用有限的离散 LUT 覆盖无限的连续尺度空间,避免了为每个尺度因子单独训练/存储的问题。

局限与展望

  • PSNR 与 SOTA INR 方法仍有 ~0.5-0.8dB 差距,在要求极致质量的场景下 IM-LUT 可能不够。
  • LUT 的存储需求随输入窗口大小指数增长,限制了使用更大感受野——而更大的感受野通常意味着更好的质量。
  • 目前仅实现了单图超分,未探索视频超分中的时序信息利用。
  • 插值函数的种类是人工预定义的——能否学习自定义的基础函数来进一步提升质量?
  • 未来可以探索与感知损失(LPIPS)或 GAN 损失结合来改善视觉质量(不仅仅是 PSNR),或将 IM-LUT 思路扩展到其他图像处理任务(去噪、去模糊等)。

相关工作与启发

  • vs SR-LUT / MuLUT: 这些是固定倍数的 LUT-SR 方法。IM-LUT 通过引入尺度因子作为 LUT 的额外维度,首次实现了 LUT 方法的任意尺度超分能力。
  • vs LIIF / LTE: 基于隐式神经表示的 ASISR 方法,质量更高但推理慢两个数量级。IM-LUT 在极端效率需求下是更好的选择,适用于 CPU-only 部署场景。
  • vs MetaSR: MetaSR 用 meta-learning 生成尺度特定的上采样模块。IM-LUT 更轻量——不需要动态生成网络权重,只需查表获取混合权重。
  • 本文的"经典方法+学习组合"范式启发了一种新思路:对于有成熟经典算法但质量不够的任务,学习这些经典算法的最优组合可能比从头训练网络更加高效。

评分

  • 新颖性: ⭐⭐⭐⭐ 插值混合+LUT转换的组合思路新颖,但各单一组件(LUT化、插值函数混合)此前均有探索
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多个标准 benchmark,消融实验充分,但缺少感知质量评测(LPIPS等)
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,实验对比全面,图示有助于理解
  • 价值: ⭐⭐⭐⭐ 为资源受限设备上的任意尺度超分提供了实用方案,CPU 推理速度令人印象深刻

相关论文