PIDSR: Complementary Polarized Image Demosaicing and Super-Resolution¶
会议: CVPR 2025
arXiv: 2504.07758
代码: https://github.com/PRIS-CV/PIDSR
领域: 图像复原 / 偏振成像
关键词: 偏振图像去马赛克, 超分辨率, Stokes参数, 两阶段循环, 偏振度与偏振角
一句话总结¶
PIDSR 提出了一个将偏振图像去马赛克(PID)和超分辨率(PISR)联合互补优化的框架,通过两阶段循环管线(空间-物理相干重建 + 偏振感知分辨率增强)和 Stokes 辅助网络,从 CPFA 原始图像直接获得高质量高分辨率偏振图像,显著减少了 DoP 和 AoP 的误差。
研究背景与动机¶
领域现状:偏振相机通过焦平面分割技术(DoFP)在单次曝光中捕获四个偏振方向(0°、45°、90°、135°)的图像,为偏振视觉任务(如形状估计、反射去除、去雾、HDR)提供了便利。但相机的直接输出是 CPFA(彩色偏振滤波阵列)原始图像,每个像素只有一个颜色通道+一个偏振方向的信息,需要去马赛克才能重建完整的偏振图像。
现有痛点:(1) 去马赛克不可避免地引入伪影(artifacts),且由于 DoP 和 AoP 与偏振图像之间的非线性关系(\(p = \sqrt{S_1^2+S_2^2}/S_0\), \(\theta = \frac{1}{2}\arctan(S_2/S_1)\)),去马赛克误差在 DoP/AoP 上被显著放大;(2) 偏振相机的分辨率受硬件限制远低于普通 RGB 相机;(3) 现有 PID 方法无法提升分辨率,PISR 方法假设输入没有去马赛克伪影但实际上总有——串行执行 PID→PISR 导致误差累积。
核心矛盾:PID 和 PISR 被视为独立任务串行处理,但实际上它们是互补的——更高分辨率可以减轻去马赛克伪影(验证实验表明误差率随分辨率增加而降低),而更少的去马赛克伪影可以提升超分效果。串行流水线无法利用这种互补性。
本文目标:设计一个联合框架 \(\mathcal{D}^{\uparrow}\),从 CPFA 原始图像直接同时输出去马赛克结果和高分辨率偏振图像,且 DoP/AoP 比串行方法更准确。
切入角度:作者发现 CPFA 原始图像可以近似转换为 4 张半分辨率全彩偏振图像(分离偏振方向后做简单 RGB 去马赛克),这使得 PID 可以分解为"空间不连续修复"和"分辨率提升"两个子问题,与 PISR 的子问题形成统一结构。
核心 idea:将 PID 和 PISR 统一为循环结构,每轮迭代包含空间-物理相干重建(intra-resolution)和分辨率增强(cross-resolution)两个阶段,通过 Stokes 参数注入物理先验,循环执行 n 轮实现 \(2^n\) 倍超分。
方法详解¶
整体框架¶
输入 CPFA 原始图像 \(R\) 首先转换为 4 张半分辨率全彩偏振图像 \(R_{\alpha_{1,2,3,4}}\)(按偏振方向分离像素 + 双线性 RGB 去马赛克)。然后交替通过两个阶段:Stage 1(\(f\), 空间-物理相干重建器)修复空间不连续和物理相关性,Stage 2(\(g\), 偏振感知分辨率增强器)做 2× 超分。第一轮循环完成去马赛克得到全分辨率图像;后续每轮循环再做一次 2× 超分。\(n\) 轮循环实现 \(k = 2^n\) 倍超分。
关键设计¶
-
两阶段循环管线(Recurrent PIDSR Pipeline):
- 功能:将去马赛克和超分统一为可循环执行的结构,使两者互补优化
- 核心思路:关键观察是 CPFA 原始图像可以得到 4 张半分辨率偏振图像,因此 PID 等价于"修复空间不连续"(intra-resolution)+"2× 分辨率提升"(cross-resolution)。同样 PISR 可分解为"恢复物理相关性"(intra)+"分辨率提升"(cross)。将 intra 和 cross 解耦后统一为两个阶段,形成负反馈循环:去马赛克的改善减少了超分的输入误差,超分的改善减少了去马赛克的伪影
- 设计动机:朴素串行的 \(\mathcal{D}\) 后接 \(\uparrow\) 有两个致命问题:(1) 两阶段独立,误差单向累积无负反馈;(2) 无法利用互补性。循环结构解决了这两个问题
-
Stokes 特征注入(SFI)块:
- 功能:将偏振物理先验(Stokes 参数 \(S_1, S_2\))显式注入网络特征中,保持偏振性质
- 核心思路:SFI 块包含两个分支——输入特征分支(带 MDTA 注意力模块)和 Stokes 特征分支,两个分支的处理结果相乘生成偏置来调整输入特征。嵌入修改后的 U-Net 中,替换标准卷积块。Stokes 参数包含高频物理信息(\(S_1\) 描述水平/垂直偏振差异,\(S_2\) 描述 45°/135° 差异),与图像特征的低频结构形成互补
- 设计动机:如果直接 concat 图像特征和 Stokes 特征,两者的 domain gap 太大——图像特征主要是低频结构,Stokes 特征主要是高频信息。SFI 的乘法调制方式能更好地桥接 domain gap,类似 FiLM
-
偏振感知分辨率增强器(Stage g):
- 功能:在保持偏振性质的前提下进行 2× 超分辨率
- 核心思路:直接复用 Stage f 编码器最粗层特征(不再对中间结果提取特征,避免重复计算),通过另一个解码器+Stokes 特征注入头(\(\mathcal{F}_s^g\) 处理修复后更准确的 Stokes 参数 \(S_{1,2}^b\))进行上采样。输出特征经过特征精修块 \(\mathcal{A}^g\) 和上采样块 \(\mathcal{U}\) 重建残差
- 设计动机:Stage f 已修复了空间不连续和物理相关性,此时的 Stokes 参数更可靠,可以更好地指导超分过程。跳过重复的特征提取也提升了效率
损失函数 / 训练策略¶
总损失 \(L = \lambda_1 L_{img} + \lambda_2 L_{Stokes} + \lambda_3 L_{pol}\),\(\lambda_1 = 1.0, \lambda_2 = 10.0, \lambda_3 = 10.0\)。
- 图像损失 \(L_{img}\):\(L_1(I_{\alpha_1}+I_{\alpha_3}, I_{\alpha_2}+I_{\alpha_4})\)(利用偏振恒等式约束)+ 梯度损失
- Stokes 损失 \(L_{Stokes}\):\(S_0\) 的梯度损失 + \(S_{1,2}\) 的 L1 损失
- 偏振损失 \(L_{pol}\):DoP 和 AoP 的 L1 损失
使用 Mitsuba 3 渲染的合成数据集训练,Adam 优化器,学习率 0.005,训练 100 epochs,NVIDIA A800 GPU。两个阶段同时训练。
实验关键数据¶
主实验¶
| 方法 | 去马赛克 \(S_0\) PSNR↑ | DoP PSNR↑ | AoP MAE↓ | 2×SR \(S_0^{HR}\) PSNR↑ | 2×SR DoP PSNR↑ |
|---|---|---|---|---|---|
| Polanalyser | 33.28 | 26.68 | 17.87 | - | - |
| IGRI2 | 35.50 | 27.78 | 16.58 | - | - |
| TCPDNet | 38.65 | 32.26 | 13.19 | - | - |
| PIDSR (demosaic) | 40.24 | 33.33 | 12.24 | - | - |
| PSRNet (2×) | - | - | - | 36.46 | 32.01 |
| CPSRNet (2×) | - | - | - | 33.60 | 24.14 |
| PIDSR (2×) | - | - | - | 37.44 | 32.97 |
消融实验¶
| 配置 | \(S_0\) PSNR↑ | DoP PSNR↑ | AoP MAE↓ |
|---|---|---|---|
| Sequential \(\mathcal{D}\) and \(\uparrow\) | 32.32 | 23.78 | 19.29 |
| Single-stage pipeline | 34.61 | 27.95 | 38.22 |
| Without SFI blocks | 37.18 | 32.73 | 13.12 |
| Ours (demosaic) → PSRNet | 40.24 | 33.33 | 12.24 |
| TCPDNet → ours (SR only) | 38.65 | 32.26 | 13.19 |
| Complete PIDSR | 40.24 | 33.33 | 12.24 |
关键发现¶
- 去马赛克上 PIDSR 比最强基线 TCPDNet 提升了 1.59 dB(\(S_0\))和 1.07 dB(DoP),AoP 误差降低 0.95°
- 串行方法(Sequential \(\mathcal{D}\) and \(\uparrow\))表现最差,证明误差累积问题严重
- 单阶段管线的 AoP MAE 暴涨到 38.22°——因为空间不连续未修复就直接超分,物理相关性被破坏
- 去掉 SFI 块后 DoP 掉 0.6 dB,说明 Stokes 物理先验注入确实帮助了偏振性质保持
- 互补效果验证:用 PIDSR 做去马赛克再用 PSRNet 做 SR ≈ 用完整 PIDSR 做联合优化——说明 PIDSR 的去马赛克质量已经很高;但反过来用 TCPDNet 去马赛克再用 PIDSR 做 SR 则弱于完整 PIDSR——说明 SR 阶段确实从更好的去马赛克中受益
- 在真实数据上 PIDSR 的 AoP 和 DoP 没有明显的锯齿状伪影,其他方法有
亮点与洞察¶
- 互补性的理论和实验双重验证:不只是说 PID 和 PISR 互补,而是通过控制变量实验(不同分辨率下的去马赛克误差率)定量证明了高分辨率减少去马赛克伪影,再通过消融证明联合优化优于串行。这种论证方式非常扎实
- CPFA → 半分辨率偏振图像的等价变换:这个洞察是整个方法框架的基础——将 PID 重新定义为"空间修复 + 2× 超分",从而自然地与 PISR 统一。这是一个优雅的问题重构
- Stokes 参数作为物理先验注入:利用偏振成像特有的物理约束(如 \(I_{\alpha_1}+I_{\alpha_3} = I_{\alpha_2}+I_{\alpha_4}\))作为损失正则化,并通过 SFI 块注入网络。这种 physics-informed 的设计比纯数据驱动更可靠
局限与展望¶
- 仅处理单帧 CPFA 原始图像,不支持偏振视频序列
- 不能处理非偏振的 CFA 原始图像(因为需要 Stokes 参数输入)
- 合成训练数据与真实偏振相机数据之间可能存在 domain gap
- 循环多轮(如 4× 超分需要 2 轮)会增加推理时间
- 未探索更大超分倍数(如 8×)或与其他低级视觉任务(去噪、HDR)的联合
相关工作与启发¶
- vs TCPDNet:当前最强的偏振去马赛克方法,使用 CNN 直接从 CPFA 重建偏振图像。PIDSR 通过联合超分获得了更好的去马赛克结果,说明任务间互补确实有效
- vs PSRNet/CPSRNet:现有偏振超分方法假设输入无伪影,导致在真实场景(有去马赛克伪影)中效果打折。PIDSR 通过联合优化从根本上解决了这个假设不成立的问题
- vs 传统 RGB 去马赛克+超分:偏振场景比 RGB 更复杂(12 个通道 vs 3 个通道,非线性 DoP/AoP 计算),不能直接用 RGB 方法。PIDSR 的 Stokes 先验注入是偏振成像独有的设计
评分¶
- 新颖性: ⭐⭐⭐⭐ PID 和 PISR 互补的观察是新的,两阶段循环管线设计优雅
- 实验充分度: ⭐⭐⭐⭐ 合成和真实数据,全面消融,下游任务验证
- 写作质量: ⭐⭐⭐⭐ 问题建模和动机推导非常清晰
- 价值: ⭐⭐⭐⭐ 对偏振成像社区很有价值,互补优化的思路也可泛化
相关论文¶
- [CVPR 2025] Augmenting Perceptual Super-Resolution via Image Quality Predictors
- [CVPR 2025] Progressive Focused Transformer for Single Image Super-Resolution
- [CVPR 2025] AdcSR: Adversarial Diffusion Compression for Real-World Image Super-Resolution
- [CVPR 2025] QMambaBSR: Burst Image Super-Resolution with Query State Space Model
- [NeurIPS 2025] FIPER: Factorized Features for Robust Image Super-Resolution and Compression