SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning¶
会议: NeurIPS 2025
arXiv: 2510.22534
代码: 无
领域: Segmentation / Image Super-Resolution
关键词: 超分辨率, 语义准确性, 交叉注意力, Classifier-Free Guidance, 即插即用
一句话总结¶
SRSR提出一种无需训练的即插即用框架,通过空间重聚焦交叉注意力(SRCA)和空间定向CFG(STCFG)两个推理时模块,解决扩散超分方法中文本引导导致的语义幻觉问题,在保真度和感知质量上全面超越7个SOTA基线。
研究背景与动机¶
基于Stable Diffusion的超分方法(如SeeSR、OSEDiff)利用文本先验引导生成,但存在三大语义问题:
交叉注意力偏移:文本token注意力泄露到无关像素区域。例如"bird"token的注意力跑到石头区域,导致石头上出现翅膀纹理;"grass"的注意力分散到狮子脸上,产生幻觉纹理(Figure 1)。
提示词不准确:DAPE(degradation-aware prompt extractor)虽比BLIP/LLaVA更鲁棒,但在严重退化图像上仍可能提取错误tag(如把石头识别为"camouflage"),错误文本引导比无文本引导更有害。
提示词不完整:DAPE是基于目标的设计,无法覆盖所有区域(特别是背景),未被tag覆盖的区域(ungrounded regions)容易受到无关文本影响。
核心洞察是:不准确的引导比不完整的引导更有害——宁可对某些区域不做文本引导,也不要给错误的引导。
方法详解¶
整体框架¶
SRSR是一个纯推理时的即插即用模块,兼容任何使用文本先验的交叉注意力超分方法。流程:LR图像 → DAPE提取文本tag → Grounded SAM视觉接地(过滤不可靠tag + 生成tag-mask对)→ SRCA约束交叉注意力 → STCFG处理未接地区域 → 生成SR图像。
关键设计¶
-
Spatially Re-focused Cross-Attention (SRCA):用视觉接地的分割mask约束每个文本token的注意力范围。标准交叉注意力为 \(\alpha_{ij} = \text{Softmax}(Q_i \cdot K_j / \sqrt{d})\)。SRCA先用二值mask屏蔽无关区域 \(\alpha_{ij}^{\text{SRCA}} = M_{ij} \cdot \alpha_{ij}\),然后在所有有效像素-token对上重归一化: $\(\hat{\alpha}_{ij}^{\text{SRCA}} = \frac{\alpha_{ij}^{\text{SRCA}}}{\sum_{i',j'} \alpha_{i'j'}^{\text{SRCA}}}\)$ 这确保了相关token不受无关区域的注意力稀释。同时Grounded SAM的视觉接地步骤自然过滤了不可靠tag——无法被视觉接地的tag被认为是不相关的,直接丢弃。
-
Spatially Targeted Classifier-Free Guidance (STCFG):标准CFG对所有像素统一应用文本引导:\(\hat{\epsilon}_i = \epsilon_\theta(x_t, \phi) + s[\epsilon_\theta(x_t, y) - \epsilon_\theta(x_t, \phi)]\)。但对ungrounded区域,全局token(EOS、标点等)携带的整个prompt语义会影响这些区域的恢复。STCFG通过空间选择性地应用CFG解决此问题: $\(\hat{\epsilon}_i = (1-M_i)[\epsilon_\theta(x_t,\phi) + s(\epsilon_\theta(x_t,y) - \epsilon_\theta(x_t,\phi))] + M_i \cdot \epsilon_\theta(x_t,\phi)\)$ 其中 \(M_i=1\) 表示像素 \(i\) 未被接地。对grounded区域正常使用CFG文本引导,对ungrounded区域仅用无条件预测。
损失函数 / 训练策略¶
SRSR无需训练——完全在推理时工作。使用原始预训练SD和UNet,不引入任何新的可学习参数。Grounded SAM仅在LR图像上运行一次(128×128仅0.12s),mask被缓存复用。
实验关键数据¶
主实验¶
| 数据集 | 指标 | SRSR-SeeSR | SeeSR基线 | 最佳竞品 | 提升 |
|---|---|---|---|---|---|
| RealSR | PSNR↑ | 26.40 | 25.18 | 26.31(ResShift) | +0.09 |
| RealSR | SSIM↑ | 0.7632 | 0.7216 | 0.7421(ResShift) | +0.0211 |
| RealSR | LPIPS↓ | 0.2718 | 0.3009 | 0.3009(SeeSR) | -0.0291 |
| RealSR | DISTS↓ | 0.2092 | 0.2223 | 0.2223(SeeSR) | -0.0131 |
| DIV2K | PSNR↑ | 24.72 | 23.68 | 24.65(ResShift) | +0.07 |
| DrealSR | PSNR↑ | 29.50 | 28.17 | 28.46(ResShift) | +1.04 |
| DrealSR | LPIPS↓ | 0.2866 | 0.3189 | 0.3177(OSEDiff) | -0.0311 |
消融实验¶
| 配置 | PSNR↑ | SSIM↑ | LPIPS↓ | DISTS↓ |
|---|---|---|---|---|
| V1: SeeSR基线 | 25.17 | 0.722 | 0.301 | 0.222 |
| V2: +Grounding | 25.18 | 0.723 | 0.300 | 0.223 |
| V3: +Grounding+SRCA | 25.27 | 0.728 | 0.301 | 0.225 |
| V4: +Grounding+SRCA+STCFG(完整) | 26.40 | 0.763 | 0.272 | 0.209 |
| V5: V4+ungrounded tags | 26.39 | 0.763 | 0.273 | 0.210 |
| V7: V4+Mask2Former | 26.31 | 0.762 | 0.273 | 0.209 |
| V8: V4+DINO-X | 26.34 | 0.763 | 0.272 | 0.209 |
关键发现¶
- STCFG贡献最大(V3→V4, PSNR+1.13),SRCA单独使用时对保真度有提升但对感知质量略有代价
- 添加额外语义分割标签(Mask2Former/DINO-X)反而降低性能——证实"不准确tag比不完整tag更有害"
- 阈值敏感度分析显示SRSR对grounding置信阈值相当鲁棒(0.15-0.55均显著优于基线)
- 无参考指标(NIQE/MUSIQ等)倾向奖励幻觉结果,不是评估语义保真度的可靠指标
亮点与洞察¶
- "不准确tag比不完整tag更有害"这一洞察非常实用,为文本引导的生成模型提供了重要设计原则
- 纯推理时即插即用的设计极具实用性——可直接提升任何文本条件超分方法
- SRCA和STCFG功能互补:前者处理grounded区域的语义混淆,后者处理ungrounded区域的幻觉
- 揭示了无参考质量指标在评估语义保真度方面的严重不足
局限与展望¶
- 依赖Grounded SAM的分割质量,退化严重时可能接地不准
- STCFG不适用于不支持CFG的方法(如OSEDiff)
- 未集成到训练过程,仅推理时优化
- 仍依赖DAPE作为初始tag提取器,更好的退化感知tag提取可进一步提升
相关工作与启发¶
- 与同期工作HolisDiP的对比:后者用Mask2Former做全覆盖分割但不具退化感知且限于150类
- SFT-GAN的空间特征变换思路类似但基于GAN
- 为文本引导的扩散模型提供了通用的语义约束范式,可推广到text-to-image等其他任务
评分¶
- 新颖性: ⭐⭐⭐⭐ (SRCA+STCFG的空间选择性引导设计新颖)
- 实验充分度: ⭐⭐⭐⭐⭐ (7基线、3数据集、详细消融+超参分析)
- 写作质量: ⭐⭐⭐⭐⭐ (可视化优秀,问题-方案对应清晰)
- 价值: ⭐⭐⭐⭐⭐ (即插即用且效果显著,实用价值极高)
相关论文¶
- [CVPR 2025] The Power of Context: How Multimodality Improves Image Super-Resolution
- [NeurIPS 2025] Panoptic Captioning: An Equivalence Bridge for Image and Text
- [NeurIPS 2025] Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation
- [NeurIPS 2025] Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers
- [NeurIPS 2025] Towards Unsupervised Domain Bridging via Image Degradation in Semantic Segmentation