DISTA-Net: Dynamic Closely-Spaced Infrared Small Target Unmixing¶

会议: ICCV 2025
arXiv: 2505.19148
代码: https://github.com/GrokCV/GrokCSO
领域: others
关键词: 红外小目标, 密集目标解混, 深度展开网络, 稀疏重建, 亚像素定位

一句话总结¶

DISTA-Net提出动态深度展开网络，将ISTA稀疏重建中的非线性变换和阈值参数从静态改为根据输入自适应生成，实现密集红外小目标的首个深度学习解混方法，并建立了包含数据集、评估指标和工具包的首个开源生态。

研究背景与动机¶

红外成像在远距离探测和监视中扮演关键角色，但远程目标辐射信号弱，当多个目标在空间上紧密排列时，由于光学系统衍射扩展（PSF），目标信号会重叠为模糊光斑，无法通过人眼分辨。

现有痛点： 1. 传统优化方法（如ISTA+ℓ1正则化求解）高度依赖超参数调优，不同目标数量和位置下表现不稳定 2. 深度学习在红外小目标检测领域已有进展，但在密集小目标（CSIST）解混方面完全空白 3. 通用图像超分辨率不适用——CSIST解混需要精确估计目标数量、亚像素位置和辐射强度，而非像素级清晰度增强 4. 缺乏标准化数据集、评估指标和开源实现

核心idea：将传统ISTA稀疏重建展开为深度网络，关键创新在于使变换和阈值"动态化"，即根据输入自适应调整。

方法详解¶

整体框架¶

DISTA-Net由 \(N\) 个级联阶段组成，每个阶段包含：(1) 梯度下降步骤计算残差 \(\mathbf{r}^{(k)}\)，(2) 双分支动态变换模块 \(\mathcal{F}_d^{(k)}\) 提取特征，(3) 动态阈值模块 \(\Theta_d^{(k)}\) 细化特征，(4) 逆变换模块 \(\tilde{\mathcal{F}}^{(k)}\) 重建信号。

关键设计¶

CSIST成像与稀疏重建模型:
- 功能：将解混问题形式化为稀疏优化
- 核心思路：目标近似为点源，通过高斯PSF建模扩散。将每个像素细分为 \(n \times n\) 子像素网格，得到 \(L = UVn^2\) 个潜在目标位置，优化问题为 \(\min_{\tilde{\mathbf{s}}} \|\mathbf{z} - \mathbf{G}(\Omega)\tilde{\mathbf{s}}\|_2^2 + \lambda\|\tilde{\mathbf{s}}\|_1\)
- 解的非零元素直接给出目标数量、强度和亚像素坐标
动态变换模块（Dynamic Transform）:
- 功能：替代ISTA-Net的静态非线性变换
- 核心思路：双分支结构
  - 主分支：Conv-ReLU-Conv处理 \(\mathbf{r}^{(k)}\)
  - 辅助分支：通过全连接网络从 \(\tilde{\mathbf{s}}^{(k-1)}\) 生成动态卷积权重 \(W = f(\tilde{\mathbf{s}}^{(k-1)})\)，应用于 \(\mathbf{r}^{(k)}\)
  - 融合：\(\mathcal{F}_d^{(k)} = \alpha \cdot A(\text{ReLU}(B(\mathbf{r}^{(k)}))) + (1-\alpha) \cdot \text{sigmoid}(w_r)\)
- 设计动机：ISTA-Net训练后权重固定，无法适应不同输入。动态卷积核让变换根据输入自适应调整
动态软阈值模块（Dynamic Soft-Thresholding）:
- 功能：自适应生成阈值参数 \(\theta_d\)
- 核心思路：
  - 双卷积层提取多尺度特征 \(\tilde{U}_1, \tilde{U}_2\)
  - 并行平均池化和最大池化捕获空间关系
  - 通过卷积+sigmoid生成空间选择性掩码
  - 最终阈值 \(\theta_d = C(\sum_{i=1}^{N} (\widetilde{SA})_i \cdot \tilde{U}_i)\)
- 设计动机：固定阈值对密集重叠目标和不同空间上下文变化的适应能力不足

损失函数 / 训练策略¶

\[\mathcal{L} = \mathcal{L}_{\text{discrepancy}} + \gamma \mathcal{L}_{\text{constraint}}\]

\(\mathcal{L}_{\text{discrepancy}}\)：重建结果与真值的MSE
\(\mathcal{L}_{\text{constraint}}\)：多阶段恒等约束 \(\tilde{\mathcal{F}}^{(k)} \circ \mathcal{F}_d^{(k)} \approx \mathbf{I}\)，权重 \(\gamma=0.01\)
线性初始化：\(\tilde{s}^{(0)} = Q_{\text{init}} \mathbf{z}\)

超参数：\(c=3\)（默认网格比），batch size 64，6个阶段 \(N=6\)，\((1-\alpha)=0.3\)。

实验关键数据¶

主实验¶

方法类型	方法	参数量	CSO-mAP	AP-20	AP-25	PSNR	SSIM
传统优化	ISTA	-	7.46	9.46	25.14	-	-
超分辨率	SRFBN	0.373M	46.05	83.72	94.95	34.29	0.9815
超分辨率	SAN	4.442M	45.95	84.32	96.57	37.18	0.9848
深度展开	ISTA-Net	0.171M	45.16	82.58	94.53	35.67	0.9862
深度展开	ISTA-Net+	0.337M	46.06	84.46	96.17	38.50	0.9887
深度展开	DISTA-Net	2.179M	46.74	86.18	97.14	38.38	0.9887

消融实验¶

配置	CSO-mAP	AP-20	AP-25	说明
ISTA-Net（基线）	45.16	82.58	94.53	静态参数
DISTA-Net w/o DT	46.32	86.18	97.50	去除动态变换
DISTA-Net w/o Thres.	46.17	84.67	95.79	去除动态阈值（影响最大）
DISTA-Net（完整）	46.74	86.18	97.14	全部组件

不同采样网格比消融（\(c=5, c=7\)）：DISTA-Net在所有配置下持续领先，且随网格比增加提升更大。

关键发现¶

DISTA-Net在AP-20指标上达到86.18%，AP-25达到97.14%，显著领先其他方法
动态软阈值是性能提升的核心组件，去除后CSO-mAP从46.74降至46.17
传统ISTA的CSO-mAP仅7.46，深度学习方法提升了一个量级
SR+检测器流水线验证：DISTA-Net + YOLOv11（47.82）> SRFBN + YOLOv11（45.74）
超分辨率方法虽然也能工作，但DISTA-Net在定位精度上更具优势

亮点与洞察¶

首个将深度学习应用于密集红外小目标解混的工作，开创性地建立了完整的研究生态
CSIST-100K数据集（10万样本）、CSO-mAP评估指标、GrokCSO工具包三位一体
动态展开的思想简洁有效：将ISTA-Net的静态权重改为输入条件化，符合物理直觉
CSO-mAP指标设计合理，使用多个亚像素距离阈值（0.05~0.25像素）评估定位精度

局限与展望¶

计算量随网格比增大急剧增加（\(c=3\)时35.1G FLOPs，\(c=7\)时142.3G FLOPs）
仅在合成数据上验证，真实红外场景的泛化性有待考察
假设目标为点源（高斯PSF），实际目标可能有更复杂的形状
当前仅处理1-5个目标的密集场景，更大规模群组目标的扩展未探索

评分¶

新颖性: ⭐⭐⭐⭐ 首个深度学习CSIST解混方法，动态展开设计有新意
实验充分度: ⭐⭐⭐⭐ 多种基线对比全面，消融充分，但缺少真实数据验证
写作质量: ⭐⭐⭐⭐ 问题建模清晰，从物理模型到深度网络的推导完整
价值: ⭐⭐⭐⭐ 建立了全新的研究生态，对红外目标检测领域有重要推动