DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging¶

会议: CVPR 2025
arXiv: 2503.00905
代码: https://github.com/LiuZhu-CV/DEAL
领域: AI安全
关键词: infrared imaging, adversarial learning, data-efficient, spiking neural network, degradation synthesis

一句话总结¶

提出 DEAL（Data-Efficient Adversarial Learning），一种仅需 50 张清晰红外图像训练的对抗学习框架，通过动态对抗退化合成和双通道交互网络（Scale Transform + Spiking Neurons），以 0.96M 超轻量参数同时处理条纹噪声、低分辨率和低对比度三种红外退化。

研究背景与动机¶

领域现状：红外成像在安防监控、自动驾驶、军事侦察等场景中至关重要，但受限于焦平面阵列传感器的物理特性，红外图像普遍存在三类退化：条纹噪声（传感器响应不均匀）、低分辨率（热辐射传播特性）和低对比度（信号处理限制）。

现有痛点：(1) 现有方法通常只处理单一退化，无法应对复合退化场景。(2) 高质量红外训练数据极度稀缺——采集配对数据需要精确的光学设备和受控环境。(3) 将不同退化的处理模型级联使用会导致误差累积。

核心矛盾：红外图像增强需要大量配对训练数据，但获取成本极高；同时三种退化相互耦合（如条纹噪声叠加低分辨率），简单级联处理效果差。

本文目标 如何用极少量数据（50 张）训练一个统一模型，同时处理三种红外退化？

切入角度：对抗学习——让一个退化生成器动态合成各种退化组合，增强网络在对抗博弈中学会处理所有退化类型。结合 SNN 的脉冲机制天然适合红外图像的高强度异常检测。

核心 idea：用对抗学习让退化生成器和增强网络博弈，动态合成和处理复合红外退化，配合 SNN 脉冲信号精准分离条纹噪声，仅需 50 张清晰图像训练。

方法详解¶

整体框架¶

层级式极大极小框架：增强网络 \(\mathcal{N}_E\) 最小化重建损失，退化生成器 \(\mathcal{N}_G\) 最大化重建损失（生成更难的退化）。两者在训练中交替优化，最终增强网络学会处理各种强度的复合退化。

关键设计¶

Dynamic Adversarial Solution (DAS)
- 功能：动态合成不同类型和强度的退化组合
- 核心思路：\(\hat{x}^{(i+1)} = \sum_{j=1}^N a_{ij} D_j(\hat{x}^i)\)，分类器产生可学习权重矩阵 \(\mathbf{a}\) 控制退化强度和类型
- 设计动机：固定退化（如平均池化或全随机）效果远不如动态对抗（VIF 0.747 vs 0.931）
- 交替训练：先热启动增强网络，然后每步先更新退化生成器（梯度上升），再更新增强网络（梯度下降）
Scale Transform Module (STM)
- 功能：通过上/下采样处理多尺度退化
- 核心思路：密集连接的上下采样块，核大小 3（残差）和 7（采样层）
- 设计动机：红外退化影响不同尺度的特征，多尺度处理比单尺度更有效
Spiking-Guided Separation Module (SSM)
- 功能：利用脉冲神经网络精准分离条纹噪声
- 核心思路：LIF（Leaky Integrate-and-Fire）神经元将空间特征编码为二值脉冲序列，当强度异常（如条纹）超过阈值时触发脉冲
- 阈值相关的 Batch Normalization 确保稳定训练
- 设计动机：条纹噪声表现为空间上的高强度异常，脉冲信号的"全或无"特性天然适合此类二值化分离任务
- 参数极轻量：0.96M vs 竞争方法 BTC 22.4M、KXNet 6.51M

损失函数 / 训练策略¶

\(\mathcal{L} = \alpha\mathcal{L}_{pixel} + \beta\mathcal{L}_{SSIM}\)，\(\alpha=0.75\)，\(\beta=1.1\)
退化优化：\(-\mathcal{L}(\hat{y}; y) + \mathcal{L}(\hat{x}; x)\)
训练数据：M3FD 数据集的 50 张清晰图像，840 epochs
PyTorch on NVIDIA V100，SGD（退化）+ Adam（增强）

实验关键数据¶

主实验¶

条纹噪声去除（7 种方法对比）：

指标	最佳对比方法	DEAL	排名
MI (中度条纹)	3.23	3.397	1st
VIF (中度)	0.92	0.961	1st
MI (重度条纹)	3.12	3.244	1st
VIF (重度)	1.03	1.098	1st

目标检测 (YOLOv5 on M3FD)：

类别	退化图像	最佳级联	DEAL
People	0.522	0.700	0.737
Car	0.345	0.772	0.826
Bus	0.137	0.678	0.726
mAP	0.262	0.612	0.660

消融实验¶

退化策略	VIF	Q^AB/F
平均池化	0.747	0.389
全随机	0.716	0.397
DAS (本文)	0.931	0.482

数据量	VIF	Q^AB/F
20 张	0.829	0.445
50 张	0.931	0.482
100 张	0.935	0.485

关键发现¶

DAS 比固定退化提升 25%（VIF 0.747→0.931），对抗学习的动态退化合成至关重要
50 张图像是性价比最优点，100+ 张边际收益极小
0.96M 参数达到了 22.4M 参数模型的性能——SSM 的脉冲机制在参数效率上极有优势
在下游目标检测中 mAP 提升 15.2%（0.262→0.660），说明图像增强直接提升了高级视觉任务

亮点与洞察¶

50 张图像的数据效率令人印象深刻：通过对抗学习的数据增强效果，弥补了数据不足
SNN 在图像处理中的巧妙应用：脉冲信号的二值特性天然适合条纹（异常高强度信号）的检测和分离
统一模型处理三种退化：避免了级联方法的误差累积
动态退化合成策略可迁移到其他数据稀缺的图像增强任务

局限与展望¶

仅在红外场景验证，应用范围相对窄
840 epochs 训练仍需要一定时间
对比方法中缺少近年的 Transformer-based 图像修复方法
SSM 的脉冲阈值是手动设定的，自适应阈值可能更好

评分¶

新颖性: ⭐⭐⭐⭐ SNN + 对抗学习处理红外退化的组合很新颖
实验充分度: ⭐⭐⭐⭐ 三种退化+复合退化+下游检测
写作质量: ⭐⭐⭐⭐ 问题motivated清晰
价值: ⭐⭐⭐⭐ 对红外成像社区有直接应用价值