跳转至

AFUNet: Cross-Iterative Alignment-Fusion Synergy for HDR Reconstruction via Deep Unfolding Paradigm

会议: ICCV 2025
arXiv: 2506.23537
代码: https://github.com/eezkni/AFUNet
领域: 图像恢复 / HDR重建
关键词: HDR成像, 深度展开网络, MAP估计, 对齐-融合交替优化, 去鬼影

一句话总结

将多曝光HDR重建从MAP估计视角建模,通过空间对应先验将问题分解为对齐和融合两个交替子问题,再展开为端到端可训练的AFUNet(含SAM空间对齐+CFM通道融合+DCM数据一致性模块),在三个HDR基准上取得SOTA,PSNR-μ达44.91dB(Kalantari数据集)。

背景与动机

现有HDR重建方法分为"对齐-融合"范式(先对齐再融合,但预对齐可能丢失信息)和"仅融合"范式(跳过对齐直接融合,但缺乏显式对齐导致鬼影)。两者都基于经验设计,缺乏数学基础。核心洞察:将对齐融入融合过程中交替迭代,比二者分开执行效果更好。

核心问题

如何为多曝光HDR重建提供有理论基础的框架,使对齐和融合相互促进、渐进优化?

方法详解

整体框架

三张多曝光LDR图像(y1,y2,y3) → SFEM浅层特征提取 → T=4阶段的交替对齐-融合展开网络(AFM) → 残差HDR图像重建。每个AFM阶段:SAM对齐非参考特征 → SFM空间融合 → CFM通道融合 → DCM数据一致性更新 → MLP+残差更新。

关键设计

  1. MAP理论建模+展开: 将HDR重建建模为MAP估计(Eq.2),引入空间对应先验约束,用HQS方法解耦为对齐子问题(梯度下降)和融合子问题(近端算子)。每个迭代步展开为一个AFM模块,参数独立可学习。
  2. 空间对齐模块(SAM): 基于窗口交叉注意力,将非参考特征f_α1/f_α3与中间重建特征f_x对齐。Key和Value融合了退化变换D_i的信息(通过MLP学习),使对齐过程感知曝光差异。
  3. 通道融合模块(CFM): 基于通道注意力Transformer,在空间融合(SFM)后进一步做通道维度的自适应融合,结合前一阶段的重建特征f_x^{t-1}和对齐后的特征。

损失函数 / 训练策略

  • L = L1(tone-mapped) + 0.005 × L_perceptual(VGG-19)
  • 色调映射使用μ-law函数(μ=5000)
  • Adam优化器,batch=6,lr=5e-4→5e-6 cosine decay,400 epochs
  • 训练patch: 128×128,数据增强:随机裁剪/旋转/翻转
  • 单张RTX 4090 GPU

实验关键数据

Kalantari数据集

方法 PSNR-μ↑ PSNR-l↑ SSIM-μ↑ HDR-VDP2↑
CA-ViT 44.32 42.18 0.9916 66.03
SCTNet 44.43 42.21 0.9918 66.64
SAFNet 44.66 43.18 0.9919 66.69
LFDiff 44.76 42.59 0.9919 66.54
AFUNet 44.91 42.59 0.9923 66.75

Hu数据集

方法 PSNR-μ↑ PSNR-l↑
LFDiff 48.74 52.10
AFUNet 48.83 52.13

Tel数据集

方法 PSNR-μ↑ PSNR-l↑
SCTNet 42.55 47.51
AFUNet 43.31 47.83

消融实验要点

  • 仅SFM: PSNR-μ=43.94 → +SAM: 44.48 → +CFM: 44.62 → +DCM: 44.45 → 全部(AFUNet): 44.91
  • "对齐-融合"(AF)顺序优于"融合-对齐"(FA): 44.91 vs 44.72
  • 阶段数: 2→44.40, 3→44.83, 4→44.91(默认), 5→44.85, 6→44.93(4阶段最佳性价比)
  • 3个阶段已超过先前SOTA,证明框架本身的有效性

亮点 / 我学到了什么

  • 理论驱动的架构设计: MAP建模+HQS展开给出了对齐和融合交替的理论依据,不是纯经验设计
  • 对齐从预处理变为迭代过程: 核心创新——对齐和融合交替进行,每一步的融合结果指导下一步的对齐
  • 窗口交叉注意力用于对齐: 局部窗口比全局attention更适合空间对齐(对齐主要涉及局部结构和高频细节)
  • 深度展开的实用价值: 将迭代算法展开为固定阶段的神经网络,既有理论解释性又能端到端训练

局限性 / 可改进方向

  • 仅验证了3曝光输入,更多曝光的扩展性待验证
  • SAM基于窗口attention,可能在大运动区域的对齐能力有限
  • Kalantari数据集仅15个测试样本,评估规模偏小
  • 未与其他展开方法(如MERF的GAN式迭代)做直接公平对比

与相关工作的对比

  • vs CA-ViT/SCTNet (Transformer-based): 它们仍是"对齐-融合"或"仅融合"范式;AFUNet的交替迭代范式更有效(+0.48-0.59 dB)
  • vs LFDiff (Diffusion-based): AFUNet无需扩散采样的额外计算,PSNR-μ仍优(44.91 vs 44.76)
  • vs Mai et al. (DUN-based): 之前的展开方法将HDR看作低秩补全,假设过强;AFUNet更灵活通用

与我的研究方向的关联

  • 深度展开将迭代优化变为可学习架构的思路可用于其他复杂重建任务
  • 对齐-融合交替迭代的范式可迁移到视频修复、多视角融合等

评分

  • 新颖性: ⭐⭐⭐⭐ MAP建模→展开的思路在HDR领域较新,但深度展开本身是成熟技术
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集+消融+范式分析+阶段数分析,较充分
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,从MAP到展开的过程完整可追踪
  • 对我的价值: ⭐⭐⭐ 展开思想有参考价值,但HDR重建非核心关注方向