SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning¶

会议: NeurIPS 2025
arXiv: 2510.22534
代码: 无
领域: Segmentation / Image Super-Resolution
关键词: 超分辨率, 语义准确性, 交叉注意力, Classifier-Free Guidance, 即插即用

一句话总结¶

SRSR提出一种无需训练的即插即用框架，通过空间重聚焦交叉注意力(SRCA)和空间定向CFG(STCFG)两个推理时模块，解决扩散超分方法中文本引导导致的语义幻觉问题，在保真度和感知质量上全面超越7个SOTA基线。

基于Stable Diffusion的超分方法（如SeeSR、OSEDiff）利用文本先验引导生成，但存在三大语义问题：

交叉注意力偏移：文本token注意力泄露到无关像素区域。例如"bird"token的注意力跑到石头区域，导致石头上出现翅膀纹理；"grass"的注意力分散到狮子脸上，产生幻觉纹理（Figure 1）。

提示词不准确：DAPE（degradation-aware prompt extractor）虽比BLIP/LLaVA更鲁棒，但在严重退化图像上仍可能提取错误tag（如把石头识别为"camouflage"），错误文本引导比无文本引导更有害。

提示词不完整：DAPE是基于目标的设计，无法覆盖所有区域（特别是背景），未被tag覆盖的区域(ungrounded regions)容易受到无关文本影响。

核心洞察是：不准确的引导比不完整的引导更有害——宁可对某些区域不做文本引导，也不要给错误的引导。

SRSR是一个纯推理时的即插即用模块，兼容任何使用文本先验的交叉注意力超分方法。流程：LR图像 → DAPE提取文本tag → Grounded SAM视觉接地（过滤不可靠tag + 生成tag-mask对）→ SRCA约束交叉注意力 → STCFG处理未接地区域 → 生成SR图像。

Spatially Re-focused Cross-Attention (SRCA)：用视觉接地的分割mask约束每个文本token的注意力范围。标准交叉注意力为 $\alpha_{ij} = \text{Softmax}(Q_i \cdot K_j / \sqrt{d})$。SRCA先用二值mask屏蔽无关区域 $\alpha_{ij}^{\text{SRCA}} = M_{ij} \cdot \alpha_{ij}$，然后在所有有效像素-token对上重归一化： $$\hat{\alpha}_{ij}^{\text{SRCA}} = \frac{\alpha_{ij}^{\text{SRCA}}}{\sum_{i',j'} \alpha_{i'j'}^{\text{SRCA}}}$$ 这确保了相关token不受无关区域的注意力稀释。同时Grounded SAM的视觉接地步骤自然过滤了不可靠tag——无法被视觉接地的tag被认为是不相关的，直接丢弃。
Spatially Targeted Classifier-Free Guidance (STCFG)：标准CFG对所有像素统一应用文本引导：$\hat{\epsilon}_i = \epsilon_\theta(x_t, \phi) + s[\epsilon_\theta(x_t, y) - \epsilon_\theta(x_t, \phi)]$。但对ungrounded区域，全局token（EOS、标点等）携带的整个prompt语义会影响这些区域的恢复。STCFG通过空间选择性地应用CFG解决此问题： $$\hat{\epsilon}_i = (1-M_i)[\epsilon_\theta(x_t,\phi) + s(\epsilon_\theta(x_t,y) - \epsilon_\theta(x_t,\phi))] + M_i \cdot \epsilon_\theta(x_t,\phi)$$ 其中 $M_i=1$ 表示像素 $i$ 未被接地。对grounded区域正常使用CFG文本引导，对ungrounded区域仅用无条件预测。

SRSR无需训练——完全在推理时工作。使用原始预训练SD和UNet，不引入任何新的可学习参数。Grounded SAM仅在LR图像上运行一次（128×128仅0.12s），mask被缓存复用。

数据集	指标	SRSR-SeeSR	SeeSR基线	最佳竞品	提升
RealSR	PSNR↑	26.40	25.18	26.31(ResShift)	+0.09
RealSR	SSIM↑	0.7632	0.7216	0.7421(ResShift)	+0.0211
RealSR	LPIPS↓	0.2718	0.3009	0.3009(SeeSR)	-0.0291
RealSR	DISTS↓	0.2092	0.2223	0.2223(SeeSR)	-0.0131
DIV2K	PSNR↑	24.72	23.68	24.65(ResShift)	+0.07
DrealSR	PSNR↑	29.50	28.17	28.46(ResShift)	+1.04
DrealSR	LPIPS↓	0.2866	0.3189	0.3177(OSEDiff)	-0.0311

配置	PSNR↑	SSIM↑	LPIPS↓	DISTS↓
V1: SeeSR基线	25.17	0.722	0.301	0.222
V2: +Grounding	25.18	0.723	0.300	0.223
V3: +Grounding+SRCA	25.27	0.728	0.301	0.225
V4: +Grounding+SRCA+STCFG（完整）	26.40	0.763	0.272	0.209
V5: V4+ungrounded tags	26.39	0.763	0.273	0.210
V7: V4+Mask2Former	26.31	0.762	0.273	0.209
V8: V4+DINO-X	26.34	0.763	0.272	0.209