InfMAE: A Foundation Model in the Infrared Modality¶

会议: ECCV 2024
arXiv: 2402.00407
代码: 无
领域: 自监督学习 / 红外视觉
关键词: 红外基础模型, 掩码自编码器, 信息感知掩码, 多尺度编码器, 自监督预训练

一句话总结¶

提出 InfMAE——首个红外模态基础模型，构建了 30 万张红外图像数据集 Inf30，设计信息感知掩码策略和多尺度编码器，在红外语义分割、目标检测和小目标检测三个下游任务上超越现有方法。

研究背景与动机¶

红外成像利用物体热辐射成像，在低光照、黑暗、烟雾等恶劣条件下具有不可替代的优势，广泛应用于自动驾驶、安防监控、军事侦察等领域。然而，当前红外视觉社区面临两个核心问题：

缺乏红外基础模型：可见光模态已有 MAE、DINO、BEiT 等基础模型，视频模态有 VideoMAE，遥感有 Scale-MAE，点云有 Point-M2AE，但红外模态尚无专属基础模型。直接将可见光 MAE 迁移到红外任务效果不佳，原因在于两种模态存在显著差异。

红外图像的固有特性： - 信息量低：红外图像缺乏丰富的纹理和颜色细节。作者计算信息熵发现，Inf30 平均信息熵为 6.44，而 ImageNet-1K 为 7.19。 - 目标与背景同温：斑马线、电线杆等物体因与周围环境温度相近，在红外图像中几乎不可见。 - 直接用随机掩码（vanilla MAE）会导致大量掩码落在信息贫乏区域，不利于表示学习。

缺乏大规模红外数据集：现有红外数据集规模小、场景单一，不足以支撑基础模型的预训练。

这三个问题共同驱动了 InfMAE 的设计：专属数据集 + 针对性掩码策略 + 适配的模型架构。

方法详解¶

整体框架¶

InfMAE 由三个核心模块组成： 1. 掩码块生成模块：信息感知掩码策略，优先保留信息丰富区域 2. 多尺度编码器模块：CNN + Transformer 混合架构，输出多尺度特征 3. 红外解码器模块：融合多尺度表示进行图像重建

关键设计¶

Inf30 数据集构建

从多个网站收集约 50 万张红外图像，经过两步预处理： - 去重：选取锚图像，去除场景高度相似的冗余图像 - 质量过滤：移除宽高均小于 20 像素的低分辨率图像

最终得到 305,241 张红外图像，涵盖天空、海洋、森林、城市、郊区等多种场景，包含船舶、车辆、行人、建筑等目标。分辨率范围从 40×23 到 6912×1024。

信息感知掩码策略（Information-Aware Masking, IAM）

针对红外图像信息分布不均匀的特点，设计了基于信息量的自适应掩码策略，避免随机掩码过多遮挡信息贫乏区域：

输入图像 \(x \in \mathbb{R}^{H \times W \times C}\) 通过卷积（kernel=16, stride=16）得到强度特征图
沿通道取均值得到灰度值图 \(I \in \mathbb{R}^{\frac{H}{16} \times \frac{W}{16}}\)
将 \(N\) 个 token 按灰度值降序排列（值越大信息越丰富）
以采样步长 \(S\) 等间隔采样：采样到的为可见 token，其余为掩码 token
将掩码模板上采样 2 倍和 4 倍，生成 mask_block1 和 mask_block2 供多尺度编码器使用

这种策略无需额外的语义感知分支（不同于 ATTMask、SemMAE），简单有效地确保信息密集区域被保留。

多尺度编码器模块

受 MCMAE 和 ConvNeXt 启发，设计三层编码器：

Encoder Layer 1（CNN）：Patch Embedding 1 → Conv Attention + FFN → 特征 \(F_1 \in \mathbb{R}^{\frac{H}{4} \times \frac{W}{4} \times C_1}\)，与 mask_block1 相乘实现掩码
Encoder Layer 2（CNN）：Patch Embedding 2 → Conv Attention + FFN → 特征 \(F_2 \in \mathbb{R}^{\frac{H}{8} \times \frac{W}{8} \times C_2}\)，与 mask_block2 相乘
Encoder Layer 3（ViT Transformer）：展平 + 选择可见 token → 自注意力 → 学习到的可见 token \(T_s \in \mathbb{R}^{N_v \times C_3}\)

这种设计让低层 CNN 处理局部纹理（即使红外纹理较少），高层 Transformer 捕获全局语义，多尺度特征图 \(F_1, F_2, F_3, F_4\) 可直接用于各种下游任务的特征金字塔。

红外解码器模块

将多尺度可见 token \(T_1, T_2, T_s\) 归一化到相同维度后相加，与掩码 token 拼接，恢复原始顺序后送入解码器重建图像。

关键设计：解码器深度仅为 2 层，远少于标准 MAE 的 8 层。这是因为红外图像缺乏纹理和颜色细节，深解码器反而过拟合。

损失函数 / 训练策略¶

重建损失为掩码区域的 MSE：

\[\mathcal{L}_{mse} = \frac{1}{M} \sum_{i=1}^{M} (y_i - x_i)^2\]

预训练配置： - 400 epoch，cosine 学习率 + 40 epoch warmup - AdamW 优化器，base lr = \(1.5 \times 10^{-4}\)，weight decay = 0.05 - 批大小 256，4 × A100 GPU - 编码器层数：2（CNN1）+ 2（CNN2）+ 11（ViT），768维，12头 - 默认采样步长 \(S=4\)

实验关键数据¶

主实验¶

红外语义分割（MSRS-inf 数据集，UperNet head）：

方法	Backbone	mIoU(%)	mAcc(%)	vs.之前SOTA
DDRNet	-	67.3	73.3	-
Vanilla MAE	ViT-B	71.4	78.2	-
MCMAE	ViT-B	72.1	79.8	之前最优
InfMAE	ViT-B	74.3	82.5	+2.2 mIoU

红外目标检测（M3FD-inf 数据集，Mask R-CNN head）：

方法	Backbone	mAP(%)	AP50(%)
Sparse R-CNN	ResNet50	48.3	79.4
Vanilla MAE	ViT-B	51.4	83.4
MCMAE	ViT-B	55.7	88.4
InfMAE	ViT-B	56.2	88.1

红外小目标检测（IRSTD-1k 数据集）：

方法	Backbone	AUC(%)	F1(%)	IoU(%)
DNANet	-	87.8	76.4	61.8
MCMAE	ViT-B	90.8	78.4	64.5
InfMAE	ViT-B	91.2	79.5	66.0

消融实验¶

模块消融（UperNet分割 + Mask R-CNN检测）：

IAM	Multi-scale	Seg_mIoU(%)	Det_AP50(%)	说明
✗	✗	71.4	81.5	baseline (vanilla MAE)
✓	✗	72.0	78.9	仅信息感知掩码
✗	✓	72.1	86.3	仅多尺度编码器
✓	✓	74.3	88.1	两者结合最佳

解码器深度：

Decoder Depth	Seg_mIoU(%)	Det_AP50(%)	说明
2	74.3	88.1	红外图像不需深解码器
4	72.9	87.9	性能下降
8	73.2	87.6	继续下降
12	74.0	87.2	过深反而不利

关键发现¶

信息感知掩码和多尺度编码器各自贡献约 0.6-0.7 mIoU 提升，组合后提升 2.9 mIoU
解码器深度 2 层最优，验证了红外图像"信息简单"的特性——深解码器不增反减
掩码步长 \(S=4\) 平衡了信息保留和掩码比例
预训练数据量从 10 万到 30 万持续提升，但 50 万（未去重）反而下降——数据质量和多样性比规模更重要
400 epoch 预训练已接近 1600 epoch 的性能，收益递减

亮点与洞察¶

填补空白：首个红外模态专属基础模型，从数据集到模型架构的完整方案
简单有效的掩码策略：利用灰度值排序 + 等间隔采样，无需额外分支即可实现信息感知掩码
解码器深度洞察：浅解码器对信息稀疏模态更优，这一发现可推广到其他低信息密度模态
多任务验证：在分割、检测、小目标检测三种下游任务上均验证有效

局限与展望¶

Inf30 数据集仅 30 万图像，相比 ImageNet-1K (128万) 仍较小
信息感知掩码基于灰度值简单排序，未考虑空间结构信息（如边缘、轮廓）
仅验证了 ViT-B 规模，未探索更大模型（ViT-L/H）的效果
未考虑红外-可见光跨模态场景，如融合预训练
数据集多样性受限于公开红外数据源，某些场景（如医疗红外、工业检测）可能覆盖不足

评分¶

新颖性: ⭐⭐⭐⭐ — 首个红外基础模型，信息感知掩码简洁有效
实验充分度: ⭐⭐⭐⭐ — 3个下游任务，丰富消融（模块/深度/步长/epoch/数据量）
写作质量: ⭐⭐⭐⭐ — 信息熵分析铺垫动机，整体逻辑清晰
价值: ⭐⭐⭐⭐ — 为红外视觉社区提供了标准化的基础模型和数据集，具有基础设施价值