跳转至

DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging

会议: CVPR 2025
arXiv: 2503.00905
代码: https://github.com/LiuZhu-CV/DEAL
领域: AI安全
关键词: infrared imaging, adversarial learning, data-efficient, spiking neural network, degradation synthesis

一句话总结

提出 DEAL(Data-Efficient Adversarial Learning),一种仅需 50 张清晰红外图像训练的对抗学习框架,通过动态对抗退化合成和双通道交互网络(Scale Transform + Spiking Neurons),以 0.96M 超轻量参数同时处理条纹噪声、低分辨率和低对比度三种红外退化。

研究背景与动机

领域现状:红外成像在安防监控、自动驾驶、军事侦察等场景中至关重要,但受限于焦平面阵列传感器的物理特性,红外图像普遍存在三类退化:条纹噪声(传感器响应不均匀)、低分辨率(热辐射传播特性)和低对比度(信号处理限制)。

现有痛点:(1) 现有方法通常只处理单一退化,无法应对复合退化场景。(2) 高质量红外训练数据极度稀缺——采集配对数据需要精确的光学设备和受控环境。(3) 将不同退化的处理模型级联使用会导致误差累积。

核心矛盾:红外图像增强需要大量配对训练数据,但获取成本极高;同时三种退化相互耦合(如条纹噪声叠加低分辨率),简单级联处理效果差。

本文目标 如何用极少量数据(50 张)训练一个统一模型,同时处理三种红外退化?

切入角度:对抗学习——让一个退化生成器动态合成各种退化组合,增强网络在对抗博弈中学会处理所有退化类型。结合 SNN 的脉冲机制天然适合红外图像的高强度异常检测。

核心 idea:用对抗学习让退化生成器和增强网络博弈,动态合成和处理复合红外退化,配合 SNN 脉冲信号精准分离条纹噪声,仅需 50 张清晰图像训练。

方法详解

整体框架

层级式极大极小框架:增强网络 \(\mathcal{N}_E\) 最小化重建损失,退化生成器 \(\mathcal{N}_G\) 最大化重建损失(生成更难的退化)。两者在训练中交替优化,最终增强网络学会处理各种强度的复合退化。

关键设计

  1. Dynamic Adversarial Solution (DAS)

    • 功能:动态合成不同类型和强度的退化组合
    • 核心思路:\(\hat{x}^{(i+1)} = \sum_{j=1}^N a_{ij} D_j(\hat{x}^i)\),分类器产生可学习权重矩阵 \(\mathbf{a}\) 控制退化强度和类型
    • 设计动机:固定退化(如平均池化或全随机)效果远不如动态对抗(VIF 0.747 vs 0.931)
    • 交替训练:先热启动增强网络,然后每步先更新退化生成器(梯度上升),再更新增强网络(梯度下降)
  2. Scale Transform Module (STM)

    • 功能:通过上/下采样处理多尺度退化
    • 核心思路:密集连接的上下采样块,核大小 3(残差)和 7(采样层)
    • 设计动机:红外退化影响不同尺度的特征,多尺度处理比单尺度更有效
  3. Spiking-Guided Separation Module (SSM)

    • 功能:利用脉冲神经网络精准分离条纹噪声
    • 核心思路:LIF(Leaky Integrate-and-Fire)神经元将空间特征编码为二值脉冲序列,当强度异常(如条纹)超过阈值时触发脉冲
    • 阈值相关的 Batch Normalization 确保稳定训练
    • 设计动机:条纹噪声表现为空间上的高强度异常,脉冲信号的"全或无"特性天然适合此类二值化分离任务
    • 参数极轻量:0.96M vs 竞争方法 BTC 22.4M、KXNet 6.51M

损失函数 / 训练策略

  • \(\mathcal{L} = \alpha\mathcal{L}_{pixel} + \beta\mathcal{L}_{SSIM}\)\(\alpha=0.75\)\(\beta=1.1\)
  • 退化优化:\(-\mathcal{L}(\hat{y}; y) + \mathcal{L}(\hat{x}; x)\)
  • 训练数据:M3FD 数据集的 50 张清晰图像,840 epochs
  • PyTorch on NVIDIA V100,SGD(退化)+ Adam(增强)

实验关键数据

主实验

条纹噪声去除(7 种方法对比):

指标 最佳对比方法 DEAL 排名
MI (中度条纹) 3.23 3.397 1st
VIF (中度) 0.92 0.961 1st
MI (重度条纹) 3.12 3.244 1st
VIF (重度) 1.03 1.098 1st

目标检测 (YOLOv5 on M3FD):

类别 退化图像 最佳级联 DEAL
People 0.522 0.700 0.737
Car 0.345 0.772 0.826
Bus 0.137 0.678 0.726
mAP 0.262 0.612 0.660

消融实验

退化策略 VIF Q^AB/F
平均池化 0.747 0.389
全随机 0.716 0.397
DAS (本文) 0.931 0.482
数据量 VIF Q^AB/F
20 张 0.829 0.445
50 张 0.931 0.482
100 张 0.935 0.485

关键发现

  • DAS 比固定退化提升 25%(VIF 0.747→0.931),对抗学习的动态退化合成至关重要
  • 50 张图像是性价比最优点,100+ 张边际收益极小
  • 0.96M 参数达到了 22.4M 参数模型的性能——SSM 的脉冲机制在参数效率上极有优势
  • 在下游目标检测中 mAP 提升 15.2%(0.262→0.660),说明图像增强直接提升了高级视觉任务

亮点与洞察

  • 50 张图像的数据效率令人印象深刻:通过对抗学习的数据增强效果,弥补了数据不足
  • SNN 在图像处理中的巧妙应用:脉冲信号的二值特性天然适合条纹(异常高强度信号)的检测和分离
  • 统一模型处理三种退化:避免了级联方法的误差累积
  • 动态退化合成策略可迁移到其他数据稀缺的图像增强任务

局限与展望

  • 仅在红外场景验证,应用范围相对窄
  • 840 epochs 训练仍需要一定时间
  • 对比方法中缺少近年的 Transformer-based 图像修复方法
  • SSM 的脉冲阈值是手动设定的,自适应阈值可能更好

相关工作与启发

  • vs 级联方法 (LINF+SEID): 统一处理避免误差累积,mAP +4.8%
  • vs KXNet: 参数 0.96M vs 6.51M,更轻量但性能更好

评分

  • 新颖性: ⭐⭐⭐⭐ SNN + 对抗学习处理红外退化的组合很新颖
  • 实验充分度: ⭐⭐⭐⭐ 三种退化+复合退化+下游检测
  • 写作质量: ⭐⭐⭐⭐ 问题motivated清晰
  • 价值: ⭐⭐⭐⭐ 对红外成像社区有直接应用价值

相关论文