Removing Reflections from RAW Photos¶

会议: CVPR 2025
arXiv: 2404.14414
代码: 有（推断）
领域: 人体理解 / 图像恢复
关键词: 去反射, RAW图像, 光度学仿真, 上采样器, 双摄像头

一句话总结¶

提出首个基于 RAW 图像的端到端去反射系统：在 XYZ 色彩空间中模拟逼真的反射（含 Fresnel/双反射/WB/曝光），训练 EfficientNet+BiFPN 基础模型分离透射/反射层，再用高斯金字塔上采样器保留高分辨率细节，利用可选的自拍相机上下文图辅助判断，PSNR 30.62dB。

领域现状：透过窗户拍照时经常出现的反射是图像质量的大敌。现有去反射方法在 8-bit JPG 图像上训练，但窗户反射的物理过程（Fresnel 反射率+曝光+白平衡+色调映射）在 JPG 中已被不可逆压缩。

现有痛点：（1）8-bit JPG 丢失了暗区和高光区的精度，但反射判断正需要这些区域的信息；（2）合成训练数据的真实度不足——简单的 alpha 混合无法模拟 Fresnel 角度依赖/双面反射/色温差异；（3）低分辨率预测后上采样会重新引入反射伪影。

核心矛盾：现实中的反射是复杂光学过程，但训练数据要么不够逼真（合成），要么无法获得GT（真实）。

切入角度：在 RAW 域（线性的 XYZ 色彩空间）仿真反射形成的完整物理过程，然后在 RAW 上训练去反射模型——RAW 保留了所有光度学信息。

核心 idea：RAW 域物理仿真 + 上下文自拍辅助 + 高斯金字塔上采样 = 光度学准确的去反射。

本文目标：### 关键设计

RAW 域物理仿真：在 XYZ 空间模拟：Fresnel 角度依赖反射率、双面玻璃的多次反射、不同光源色温（透射/反射各自白平衡）、曝光差异、模糊。每步仿真基于物理光学
双流基础模型：EfficientNet-B1 backbone + BiFPN 融合 + StyleGAN 式 mod-demod 块。可选第二输入（自拍相机拍室内），提供上下文帮助判断哪些是反射
高斯金字塔上采样器：从 256p 分离结果到 2048p 全分辨率。用特征匹配的乘积掩码防止反射在上采样时重新引入

基础模型：感知损失(VGG19) + 对抗损失 + 梯度损失(5-tap) + L1 反射损失。上采样器：L1(0.2) + L2(0.2) + 梯度(0.4) + LPIPS(0.8) + 循环一致性(10.0)。完全在合成数据上训练。