DEAL: Data-Efficient Adversarial Learning for High-Quality Infrared Imaging¶
会议: CVPR 2025
arXiv: 2503.00905
代码: https://github.com/LiuZhu-CV/DEAL
领域: AI安全
关键词: infrared imaging, adversarial learning, data-efficient, spiking neural network, degradation synthesis
一句话总结¶
提出 DEAL(Data-Efficient Adversarial Learning),一种仅需 50 张清晰红外图像训练的对抗学习框架,通过动态对抗退化合成和双通道交互网络(Scale Transform + Spiking Neurons),以 0.96M 超轻量参数同时处理条纹噪声、低分辨率和低对比度三种红外退化。
研究背景与动机¶
领域现状:红外成像在安防监控、自动驾驶、军事侦察等场景中至关重要,但受限于焦平面阵列传感器的物理特性,红外图像普遍存在三类退化:条纹噪声(传感器响应不均匀)、低分辨率(热辐射传播特性)和低对比度(信号处理限制)。
现有痛点:(1) 现有方法通常只处理单一退化,无法应对复合退化场景。(2) 高质量红外训练数据极度稀缺——采集配对数据需要精确的光学设备和受控环境。(3) 将不同退化的处理模型级联使用会导致误差累积。
核心矛盾:红外图像增强需要大量配对训练数据,但获取成本极高;同时三种退化相互耦合(如条纹噪声叠加低分辨率),简单级联处理效果差。
本文目标 如何用极少量数据(50 张)训练一个统一模型,同时处理三种红外退化?
切入角度:对抗学习——让一个退化生成器动态合成各种退化组合,增强网络在对抗博弈中学会处理所有退化类型。结合 SNN 的脉冲机制天然适合红外图像的高强度异常检测。
核心 idea:用对抗学习让退化生成器和增强网络博弈,动态合成和处理复合红外退化,配合 SNN 脉冲信号精准分离条纹噪声,仅需 50 张清晰图像训练。
方法详解¶
整体框架¶
层级式极大极小框架:增强网络 \(\mathcal{N}_E\) 最小化重建损失,退化生成器 \(\mathcal{N}_G\) 最大化重建损失(生成更难的退化)。两者在训练中交替优化,最终增强网络学会处理各种强度的复合退化。
关键设计¶
-
Dynamic Adversarial Solution (DAS)
- 功能:动态合成不同类型和强度的退化组合
- 核心思路:\(\hat{x}^{(i+1)} = \sum_{j=1}^N a_{ij} D_j(\hat{x}^i)\),分类器产生可学习权重矩阵 \(\mathbf{a}\) 控制退化强度和类型
- 设计动机:固定退化(如平均池化或全随机)效果远不如动态对抗(VIF 0.747 vs 0.931)
- 交替训练:先热启动增强网络,然后每步先更新退化生成器(梯度上升),再更新增强网络(梯度下降)
-
Scale Transform Module (STM)
- 功能:通过上/下采样处理多尺度退化
- 核心思路:密集连接的上下采样块,核大小 3(残差)和 7(采样层)
- 设计动机:红外退化影响不同尺度的特征,多尺度处理比单尺度更有效
-
Spiking-Guided Separation Module (SSM)
- 功能:利用脉冲神经网络精准分离条纹噪声
- 核心思路:LIF(Leaky Integrate-and-Fire)神经元将空间特征编码为二值脉冲序列,当强度异常(如条纹)超过阈值时触发脉冲
- 阈值相关的 Batch Normalization 确保稳定训练
- 设计动机:条纹噪声表现为空间上的高强度异常,脉冲信号的"全或无"特性天然适合此类二值化分离任务
- 参数极轻量:0.96M vs 竞争方法 BTC 22.4M、KXNet 6.51M
损失函数 / 训练策略¶
- \(\mathcal{L} = \alpha\mathcal{L}_{pixel} + \beta\mathcal{L}_{SSIM}\),\(\alpha=0.75\),\(\beta=1.1\)
- 退化优化:\(-\mathcal{L}(\hat{y}; y) + \mathcal{L}(\hat{x}; x)\)
- 训练数据:M3FD 数据集的 50 张清晰图像,840 epochs
- PyTorch on NVIDIA V100,SGD(退化)+ Adam(增强)
实验关键数据¶
主实验¶
条纹噪声去除(7 种方法对比):
| 指标 | 最佳对比方法 | DEAL | 排名 |
|---|---|---|---|
| MI (中度条纹) | 3.23 | 3.397 | 1st |
| VIF (中度) | 0.92 | 0.961 | 1st |
| MI (重度条纹) | 3.12 | 3.244 | 1st |
| VIF (重度) | 1.03 | 1.098 | 1st |
目标检测 (YOLOv5 on M3FD):
| 类别 | 退化图像 | 最佳级联 | DEAL |
|---|---|---|---|
| People | 0.522 | 0.700 | 0.737 |
| Car | 0.345 | 0.772 | 0.826 |
| Bus | 0.137 | 0.678 | 0.726 |
| mAP | 0.262 | 0.612 | 0.660 |
消融实验¶
| 退化策略 | VIF | Q^AB/F |
|---|---|---|
| 平均池化 | 0.747 | 0.389 |
| 全随机 | 0.716 | 0.397 |
| DAS (本文) | 0.931 | 0.482 |
| 数据量 | VIF | Q^AB/F |
|---|---|---|
| 20 张 | 0.829 | 0.445 |
| 50 张 | 0.931 | 0.482 |
| 100 张 | 0.935 | 0.485 |
关键发现¶
- DAS 比固定退化提升 25%(VIF 0.747→0.931),对抗学习的动态退化合成至关重要
- 50 张图像是性价比最优点,100+ 张边际收益极小
- 0.96M 参数达到了 22.4M 参数模型的性能——SSM 的脉冲机制在参数效率上极有优势
- 在下游目标检测中 mAP 提升 15.2%(0.262→0.660),说明图像增强直接提升了高级视觉任务
亮点与洞察¶
- 50 张图像的数据效率令人印象深刻:通过对抗学习的数据增强效果,弥补了数据不足
- SNN 在图像处理中的巧妙应用:脉冲信号的二值特性天然适合条纹(异常高强度信号)的检测和分离
- 统一模型处理三种退化:避免了级联方法的误差累积
- 动态退化合成策略可迁移到其他数据稀缺的图像增强任务
局限与展望¶
- 仅在红外场景验证,应用范围相对窄
- 840 epochs 训练仍需要一定时间
- 对比方法中缺少近年的 Transformer-based 图像修复方法
- SSM 的脉冲阈值是手动设定的,自适应阈值可能更好
相关工作与启发¶
- vs 级联方法 (LINF+SEID): 统一处理避免误差累积,mAP +4.8%
- vs KXNet: 参数 0.96M vs 6.51M,更轻量但性能更好
评分¶
- 新颖性: ⭐⭐⭐⭐ SNN + 对抗学习处理红外退化的组合很新颖
- 实验充分度: ⭐⭐⭐⭐ 三种退化+复合退化+下游检测
- 写作质量: ⭐⭐⭐⭐ 问题motivated清晰
- 价值: ⭐⭐⭐⭐ 对红外成像社区有直接应用价值
相关论文¶
- [NeurIPS 2025] Fair Representation Learning with Controllable High Confidence Guarantees via Adversarial Inference
- [CVPR 2025] Data-free Universal Adversarial Perturbation with Pseudo-Semantic Prior
- [CVPR 2025] A Simple Data Augmentation for Feature Distribution Skewed Federated Learning
- [ICML 2025] Federated In-Context Learning: Iterative Refinement for Improved Answer Quality
- [NeurIPS 2025] FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of Language Models