ReflexSplit: Single Image Reflection Separation via Layer Fusion-Separation¶

会议: CVPR 2026
arXiv: 2601.17468
代码: https://github.com/wuw2135/ReflexSplit (有)
领域: 图像复原
关键词: 反射分离, 双流架构, 差分注意力, 跨尺度融合, 课程学习

一句话总结¶

针对单图反射分离中的透射-反射混淆问题（尤其是在深层解码器中），提出ReflexSplit双流框架，通过跨尺度门控融合(CrGF)稳定多尺度特征流、层级融合-分离块(LFSB)的差分双维注意力实现跨流减法解纠缠、课程训练渐进增强分离强度，在合成和真实世界数据集上达到SOTA性能。

研究背景与动机¶

领域现状：单图反射分离（SIRS）将混合图像分解为透射层和反射层。早期线性叠加模型 \(\mathbf{I}=\mathbf{T}+\mathbf{R}\) 过于简单，后续引入非线性残差公式 \(\mathbf{I}=\mathbf{T}+\mathbf{R}+\Phi(\mathbf{T},\mathbf{R})\) 来建模复杂的层间交互。近年来YTMT、DSRNet、DSIT等方法通过激活函数交换、通道分割、双流注意力等增强层间交互。

现有痛点：(1) 在强反射或模糊场景下，网络经常错误地混淆透射层和反射层（transmission-reflection confusion），例如将水池中的强光源反射或墙上的月亮画误判为另一层；(2) 网络深度增加时信息丢失，导致层内和层间特征变得不可分离，在深层解码器中尤为严重；(3) 现有方法缺乏有效的跨尺度特征协调机制——DSIT有梯度不稳定问题，RDNet用可逆编码器但缺乏显式尺度平衡。

核心矛盾：隐式融合机制和不充分的多尺度协调，使得特征在解码层中逐渐纠缠，深层更加严重。

本文目标 (1) 跨尺度特征的自适应聚合和梯度稳定性；(2) 透射-反射层特征的显式解纠缠；(3) 差分分离强度的渐进训练策略。

切入角度：受Differential Transformer启发，将注意力取消机制从单流噪声抑制扩展到双流层分离——通过跨流减法 \(\mathbf{A}^t - \lambda_\ell \mathbf{A}^r\) 实现显式的层特定解纠缠。

核心 idea：通过"先融合共享结构、再差分分离层特定特征"的交替范式，配合跨尺度自适应门控和课程训练，防止透射-反射混淆贯穿整个网络层次。

方法详解¶

整体框架¶

ReflexSplit是一个双流编码器-解码器架构。输入混合图像后：(1) 双分支特征提取器分别用Swin Transformer（GFEB）提取全局语义先验和基于MuGI的CNN（LFEB）提取局部纹理细节；(2) 在解码器的每一层，CrGF自适应聚合多源多尺度特征；(3) LFSB在融合（提取共享退化模式）和差分分离（层特定解纠缠）之间交替；(4) 课程训练渐进增强差分分离强度。输出透射层 \(\mathbf{T}\)、反射层 \(\mathbf{R}\) 和非线性残差 \(\mathbf{RR}\)。

关键设计¶

跨尺度门控融合 (CrGF):
- 功能：在解码器Level 4/3/2自适应聚合语义先验、纹理细节和解码器上下文
- 核心思路：扩展MuGI的门控原理到跨尺度聚合。先将三种来源特征相加得到原始特征 \(\mathbf{F}_\ell^{\text{raw}} = \mathbf{F}_{\ell+1} + \mathbf{P}_\ell + \mathbf{E}_\ell\)，然后通过双向门控路径生成主路 \(\mathbf{F}_\ell^{\text{main}} = \mathcal{G}_1(\mathbf{F}_\ell^{\text{raw}}) \odot \mathcal{G}_2(\mathbf{F}_{\ell+1})\) 和辅助路 \(\mathbf{F}_\ell^{\text{aux}}\)，最后通过softmax加权融合。双向路径让当前层特征和上下文特征互相门控
- 设计动机：MuGI只在单一尺度做双流交互，缺乏跨尺度协调。RobustSIRR直接concatenation没有自适应门控，RDNet的固定可逆路径也缺乏灵活性。CrGF的自适应双向门控能根据上下文动态选择和重组多尺度特征，防止渐进退化
层级融合-分离块 (LFSB):
- 功能：在融合（共享结构提取）和分离（层特定解纠缠）之间交替操作
- 核心思路：分三步——(a) 早期融合：通过双向跨流投影 \(\mathbf{F}_\ell^{t'} = \mathbf{W}^t[\mathbf{F}_\ell^t \| \mathbf{F}_\ell^r]\) 对齐语义空间；(b) 差分双维注意力：沿batch维拼接做自注意力（SA）建模空间相关性，沿序列维拼接做交叉注意力（CA）捕获层间依赖，然后执行差分运算 \(\mathbf{A}_{\text{diff}}^t = (\mathbf{A}_{\text{SA}}^t + \mathbf{A}_{\text{CA}}^t) - \sigma(\lambda_\ell)(\mathbf{A}_{\text{SA}}^r + \mathbf{A}_{\text{CA}}^r)\)；(c) 后期聚合：通过FFN+残差连接整合分离后的特征
- 设计动机：DSIT直接聚合SA和CA输出没有分离约束，导致渐进混淆。本文的跨流减法 \(-\sigma(\lambda_\ell)\mathbf{A}^r\) 确保透射特定和反射特定特征在整个解码阶段保持可区分，从根本上解决深层混淆问题
课程训练策略:
- 功能：渐进增强差分分离强度，避免早期训练不稳定
- 核心思路：两个互补机制——(a) 深度依赖初始化：\(\lambda_\ell^{\text{init}} = 0.8 - 0.6 e^{-0.3\ell}\)，深层更强分离（\(\lambda \to 0.8\)），浅层弱分离（\(\lambda \to 0.2\)）保留细节；(b) 逐epoch预热：前30个epoch将全局缩放因子从0.1线性增到1.0，最终有效系数为 \(\lambda_\ell(e) = \lambda_\ell^{\text{init}} \cdot \lambda_{\text{diff}}(e)\)
- 设计动机：差分分离的 \(\lambda\) 需要精心控制——早期过强会不稳定因为特征尚未结构化，过弱则无法执行有效分离。课程学习让网络先学习整体重构再聚焦层特定分离

损失函数 / 训练策略¶

总损失为多项加权和：\(\mathcal{L}_{\text{total}} = \lambda_{\text{rec}}\mathcal{L}_{\text{rec}} + \lambda_{\text{refl}}\mathcal{L}_{\text{refl}} + \lambda_{\text{vgg}}\mathcal{L}_{\text{vgg}} + \lambda_{\text{color}}\mathcal{L}_{\text{color}} + \lambda_{\text{exclu}}\mathcal{L}_{\text{exclu}} + \lambda_{\text{recons}}\mathcal{L}_{\text{recons}}\)，包括Charbonnier损失、L1反射损失、VGG感知损失、颜色一致性损失、排他性损失和重构一致性损失。

实验关键数据¶

主实验¶

数据集	指标	ReflexSplit	之前SOTA(RDNet)	对比
Real20	PSNR/SSIM	25.22/0.846	25.17/0.841	+0.05/+0.005
SIR2 Objects	PSNR/SSIM	27.08/0.929	27.11/0.925	-0.03/+0.004
SIR2 Postcard	PSNR/SSIM	25.38/0.927	25.04/0.910	+0.34/+0.017
SIR2 Wild	PSNR/SSIM	27.30/0.933	27.86/0.931	-0.56/+0.002
Nature	PSNR/SSIM	27.03/0.854	26.75/0.846	+0.28/+0.008
Average (540)	PSNR/SSIM	26.40/0.898	26.38/0.890	+0.02/+0.008

注：RDNet参数量266.4M，ReflexSplit仅174M，参数效率更高。在Postcard子集上优势最明显(+0.34dB PSNR, +0.017 SSIM)。

消融实验¶

配置	PSNR↑	SSIM↑	说明
Baseline(DSIT)	24.71	0.831	基线
+ CrGF	-	-	替换原有特征聚合，稳定梯度流
+ LFSB(w/o diff)	-	-	仅融合无差分
+ LFSB(w/ diff)	-	-	加差分注意力
+ Curriculum	25.22	0.846	完整模型

关键发现¶

CrGF的跨尺度自适应门控解决了DSIT的梯度不稳定问题，稳定了整个解码器中的特征流
差分注意力可视化 清晰展示了跨流减法如何抑制层间干扰——减法后注意力分布更均衡，层特定注意力模式更清晰
在Postcard子集上优势最大，该子集包含更多非线性混合的挑战场景
虽然参数量(174M)少于RDNet(266.4M)，但在平均指标上达到或超越，说明框架设计更高效
课程训练策略是不可或缺的——直接用强差分系数训练会导致收敛不稳定

亮点与洞察¶

将Differential Transformer的思想巧妙迁移到双流分离场景：原始DiffTransformer是在同一注意力头内做减法抑制噪声，本文扩展为跨流减法 \(\mathbf{A}^t - \lambda\mathbf{A}^r\) 抑制层间干扰，语义上更自然——透射的注意力减去反射的注意力就是纯透射特定的信号
融合-分离交替范式是解决双流任务的通用范式——先融合提取共享结构信息，再分离得到任务特定表示。可迁移到其他需要"分解"的任务如去雾（雾层+清晰层）
课程训练的深度依赖初始化设计很精巧——深层需要更强分离（因为信息损失更严重），浅层保持弱分离保留细节

局限与展望¶

在Wild子集上低于RDNet 0.56dB PSNR，说明在完全非受控的真实场景中仍有改进空间
174M参数量仍然较大，轻量化设计（如DExNet的9.6M）在移动端部署更有优势
当前的差分系数 \(\lambda_\ell\) 是可学习标量，如果改为空间自适应（逐像素）可能能更好处理局部强反射区域
未在视频反射分离场景中验证，时序一致性是一个潜在挑战

评分¶

新颖性: ⭐⭐⭐⭐ 差分注意力到双流分离的迁移有创新性，融合-分离范式设计系统
实验充分度: ⭐⭐⭐⭐ 涵盖多个合成和真实数据集，有可视化分析，但消融细节可以更详细
写作质量: ⭐⭐⭐⭐ 结构清晰，图表说服力强，动机论证充分
价值: ⭐⭐⭐⭐ 对反射分离领域有推进，融合-分离范式有一定通用性

title: >- [论文解读] ReflexSplit: Single Image Reflection Separation via Layer Fusion-Separation description: >- [CVPR 2026][图像恢复][反射分离] 提出ReflexSplit双流框架，通过跨尺度门控融合(CrGF)、层融合-分离模块(LFSB)中的差分双维度注意力和课程训练策略，解决单图反射分离中的透射-反射混淆问题，在合成和真实世界基准上达到SOTA性能。 tags: - CVPR 2026 - 图像恢复 - 反射分离 - 差分注意力 - 双流架构 - 课程学习 - 跨尺度融合

ReflexSplit: Single Image Reflection Separation via Layer Fusion-Separation¶

会议: CVPR 2026
arXiv: 2601.17468
代码: https://github.com/wuw2135/ReflexSplit (有)
领域: 图像恢复
关键词: 单图反射分离, 差分注意力, 跨尺度融合, 课程学习, 双流架构

一句话总结¶

ReflexSplit提出一种显式层融合-分离框架，通过跨尺度门控融合(CrGF)自适应聚合多尺度特征，层融合-分离模块(LFSB)中的差分双维度注意力 \(\mathbf{A}^t - \lambda_\ell \mathbf{A}^r\) 进行跨流干扰抑制，配合深度依赖初始化+epoch-wise warmup的课程训练，在合成和真实世界反射分离基准上取得SOTA。

研究背景与动机¶

领域现状：单图反射分离（SIRS）需要将混合图像 \(\mathbf{I}\) 分解为透射层 \(\mathbf{T}\) 和反射层 \(\mathbf{R}\)。近年方法从简单线性叠加模型 \(\mathbf{I}=\mathbf{T}+\mathbf{R}\) 发展到非线性残差模型 \(\mathbf{I}=\mathbf{T}+\mathbf{R}+\Phi(\mathbf{T},\mathbf{R})\)，通过YTMT、DSRNet、DSIT等方法增强层间交互。
现有痛点：当遇到强反射（如水面强光反射）或语义模糊场景（如墙上的月亮画被误识为反射）时，网络会错误地混淆透射和反射层（"透射-反射混淆"）。随着网络深度增加，特征信息损失导致层内和层间特征不可分，这在深层decoder中尤为严重。
核心矛盾：现有方法在两个维度上存在不足：(a) 层级特征聚合不充分导致梯度不稳定——DSIT缺乏梯度稳定性，RDNet缺少显式尺度协调，MuGI只在单尺度操作；(b) 隐式融合机制导致渐进式层混淆——DSIT直接聚合双维度注意力输出而无分离约束。
本文目标 (a) 如何在多尺度上自适应聚合来自不同来源（语义先验、纹理细节、decoder上下文）的特征？(b) 如何在融合共享结构信息的同时强制执行层特异性的分离？(c) 如何在训练早期避免过强的分离约束导致不稳定？
切入角度：将反射分离显式建模为"融合-分离"的交替过程——先融合获得共享结构信息，再用差分注意力进行层特异性的分离。将Differential Transformer的注意力消除思想从单流噪声抑制扩展到双流层分离。
核心 idea：通过在双流架构中交替执行融合（共享结构提取）和差分注意力分离（跨流减法 \(\mathbf{A}^t - \lambda_\ell \mathbf{A}^r\)），结合课程训练渐进增强分离强度，实现鲁棒的透射-反射分离。

方法详解¶

整体框架¶

ReflexSplit采用双流编码器-解码器架构。编码端包含双分支特征提取：预训练Swin Transformer作为全局特征提取模块（GFEB）提取语义先验 \(\{\mathbf{P}_\ell\}\)，MuGI-based CNN作为局部特征提取模块（LFEB）捕捉纹理细节 \(\{\mathbf{E}_\ell\}\)。解码端通过CrGF自适应聚合多尺度特征，LFSB在每个解码层交替执行融合和差分分离。输出透射层 \(\mathbf{T}\)、反射层 \(\mathbf{R}\) 和残差 \(\mathbf{RR}\)（捕捉非线性交互）。

关键设计¶

跨尺度门控融合（CrGF）:
- 功能：在decoder各层级自适应聚合语义先验、纹理细节和decoder上下文，稳定梯度流并防止特征退化
- 核心思路：在decoder Level {4,3,2}，将原始特征 \(\mathbf{F}_\ell^{\text{raw}} = \mathbf{F}_{\ell+1} + \mathbf{P}_\ell + \mathbf{E}_\ell\)（decoder上下文+语义+纹理）与decoder上下文通过双向门控路径融合：\(\mathbf{F}_\ell^{\text{main}} = \mathcal{G}_1(\mathbf{F}_\ell^{\text{raw}}) \odot \mathcal{G}_2(\mathbf{F}_{\ell+1})\) 和 \(\mathbf{F}_\ell^{\text{aux}} = \mathcal{G}_1(\mathbf{F}_{\ell+1}) \odot \mathcal{G}_2(\mathbf{F}_\ell^{\text{raw}})\)，其中 \(\mathcal{G}\) 通过通道分割选择互补通道。最终用softmax加权融合
- 设计动机：MuGI只在单尺度上操作，RobustSIRR直接拼接无自适应门控，RDNet固定可逆路径缺乏显式尺度协调——CrGF通过双向自适应门控解决了跨尺度、跨来源特征协调的问题
层融合-分离模块（LFSB）:
- 功能：在每个decoder阶段交替执行融合（共享结构提取）和分离（层特异性解纠缠），防止渐进式透射-反射混淆
- 核心思路：分三步执行—— (a) 早期融合：通过双向跨流投影对齐语义空间 \(\mathbf{F}^{t'}_\ell = \mathbf{W}^t[\mathbf{F}^t_\ell \| \mathbf{F}^r_\ell]\)，使每个流获得互补信息； (b) 差分双维度注意力：沿batch维度拼接做自注意力（SA，空间精炼），沿序列维度拼接做交叉注意力（CA，层间依赖）。关键是引入差分算子 \(\mathbf{A}^t_{\text{diff}} = (\mathbf{A}^t_{\text{SA}} + \mathbf{A}^t_{\text{CA}}) - \sigma(\lambda_\ell)(\mathbf{A}^r_{\text{SA}} + \mathbf{A}^r_{\text{CA}})\)，通过跨流减法抑制层间干扰； (c) 后融合：FFN + 残差连接整合分离后的特征
- 设计动机：不同于Differential Transformer在同一注意力头内减法消除噪声，LFSB将减法扩展到跨流——用反射流的注意力模式抑制透射流中的反射残留，反之亦然。DSIT直接聚合SA和CA输出而无分离约束，导致渐进混淆
课程训练策略:
- 功能：渐进增强差分分离强度，让网络先学习整体重建再聚焦层特异性分离
- 核心思路：通过两个互补机制控制 \(\lambda_\ell\)： (a) 深度依赖初始化 \(\lambda_\ell^{\text{init}} = 0.8 - 0.6 e^{-0.3\ell}\)：深层接收更强的分离权重（\(\lambda \to 0.8\)），浅层保持弱权重（\(\lambda \to 0.2\)）以保留细粒度细节； (b) Epoch-wise warmup \(\lambda_{\text{diff}}(e)\)：前30个epoch内从0.1线性增加到1.0。最终有效系数 \(\lambda_\ell(e) = \lambda_\ell^{\text{init}} \cdot \lambda_{\text{diff}}(e)\)
- 设计动机：早期训练时特征结构不完善，过强的差分分离会导致训练不稳定；过弱又无法有效分离。课程训练在空间（深度依赖）和时间（epoch-wise）两个维度上自适应控制

损失函数 / 训练策略¶

总损失函数包含6项：Charbonnier重建损失 \(\mathcal{L}_{\text{rec}}\)（透射层）、\(\ell_1\)反射损失 \(\mathcal{L}_{\text{refl}}\)、VGG感知损失 \(\mathcal{L}_{\text{vgg}}\)（layers {2,7,12,21,30}）、颜色一致性损失 \(\mathcal{L}_{\text{color}}\)、排他性损失 \(\mathcal{L}_{\text{exclu}}\)和重建约束损失 \(\mathcal{L}_{\text{recons}}\)。

实验关键数据¶

主实验¶

数据集	PSNR↑ / SSIM↑	ReflexSplit	之前SOTA (RDNet)	比较
Real20	PSNR / SSIM	25.22 / 0.846	25.17 / 0.841	+0.05 / +0.005
Objects	PSNR / SSIM	27.08 / 0.929	27.11 / 0.925	-0.03 / +0.004
Postcard	PSNR / SSIM	25.38 / 0.927	25.04 / 0.910	+0.34 / +0.017
Wild	PSNR / SSIM	27.30 / 0.933	27.86 / 0.931	-0.56 / +0.002
Nature	PSNR / SSIM	27.03 / 0.854	26.75 / 0.846	+0.28 / +0.008
平均 (540张)	PSNR / SSIM	26.40 / 0.898	26.38 / 0.890	+0.02 / +0.008

备注：ReflexSplit参数量174M vs RDNet 266.4M，参数效率更高。

消融实验¶

从论文中LFSB差分注意力可视化和层级特征分离对比可得出以下要点：

配置	关键效果	说明
DSIT (baseline)	深层出现透射-反射混淆	无分离约束，渐进退化
+ CrGF	稳定梯度流	自适应跨尺度聚合
+ LFSB (w/o diff)	融合但未分离	共享结构但layer混淆未解
+ LFSB (w/ diff)	有效分离各层特征	差分算子抑制跨流干扰
+ 课程训练	训练稳定性提升	渐进增强分离强度

关键发现¶

Postcard子集上提升最显著（+0.34 PSNR / +0.017 SSIM），因为该子集反射较强且存在明显的非线性混合
差分注意力可视化（Figure 6）清晰展示了跨流减法如何抑制重叠attention模式，将模糊的混合attention转化为层特异性的均衡分布
相比RDNet（266.4M参数，两阶段训练），ReflexSplit用更少参数（174M）和更简洁的训练流程达到了可比甚至更好的性能

亮点与洞察¶

从Differential Transformer到双流分离的迁移：原版Diff Transformer在同一head内做减法消除噪声，本文将其扩展到跨流——用另一个流的attention来"减掉"当前流中的层间干扰。这种跨模态/跨流减法的思想可广泛迁移到任何需要分离纠缠信号的多流架构
课程训练的空间-时间协同设计：深度依赖初始化+epoch-wise warmup形成了一个2D的分离强度控制面，使网络在不同阶段和不同深度都有最优的融合-分离平衡，这种细粒度的训练强度控制策略可推广到其他multi-scale分解任务

局限与展望¶

在某些子集上（Objects, Wild）PSNR略低于RDNet，说明对某些场景类型的适应性还不够强
依赖预训练Swin Transformer提取全局语义，对训练数据域外的泛化能力有待验证
差分系数 \(\lambda_\ell\) 的初始化公式是手动设计的，可能对不同数据分布不够通用
论文未提供计算效率（FLOPs、推理延迟）的详细对比，174M参数相比DSIT（136M）更大但比RDNet（266M）小

评分¶

新颖性: ⭐⭐⭐⭐ 差分注意力在双流分离中的应用有创意，但整体框架是增量式改进
实验充分度: ⭐⭐⭐⭐ 多个数据集评估+可视化分析，但缺少详细消融数字
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述详细，图表丰富
价值: ⭐⭐⭐ 在反射分离这一较小子领域内有价值，但对更广泛的视觉社区影响有限

ReflexSplit: Single Image Reflection Separation via Layer Fusion-Separation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

ReflexSplit: Single Image Reflection Separation via Layer Fusion-Separation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶