3M-TI: High-Quality Mobile Thermal Imaging via Calibration-free Multi-Camera Cross-Modal Diffusion¶
会议: CVPR 2026
arXiv: 2511.19117
代码: GitHub
领域: segmentation / thermal imaging / image super-resolution
关键词: 热成像超分辨率, 跨模态扩散, 无标定融合, RGB引导, 移动端热成像
一句话总结¶
提出 3M-TI,一个无需标定的多相机跨模态扩散框架,通过在 VAE 潜空间中用跨模态自注意力(CSM)自动对齐并融合未标定的 RGB-热红外图像对,结合错位增强策略,在移动端热成像超分辨率任务上达到 SOTA,并显著提升下游目标检测与语义分割性能。
研究背景与动机¶
- 移动热成像的硬件瓶颈:移动平台热传感器因小型化导致孔径缩小、像素尺寸受限,输出图像模糊且信息不足(典型分辨率仅 96×96)。
- 单图超分的信息不足:单幅热图像缺少足够的高频信息来恢复精细结构,尤其在大放大倍数下效果欠佳。
- RGB 引导方法依赖标定:现有 RGB 引导的热图像 SR 方法需要精确的像素级跨相机标定,实际部署中标定过程繁琐且缺乏鲁棒性。
- 跨模态域差异大:RGB 与热红外成像原理根本不同,直接合并特征容易引入不真实的纹理细节。
- 热红外数据集规模有限:相比 RGB 领域,热红外数据集规模小、场景多样性不足,限制了网络训练和泛化。
- 实际场景中的时空错位:多相机系统在实际使用中不可避免地存在视差和时间不同步问题,现有方法对此缺乏鲁棒性。
方法详解¶
整体框架¶
3M-TI 基于单步扩散模型 SD-Turbo 构建,输入为低分辨率热图像(64×64)与未标定的高分辨率 RGB 参考图(512×512)。流程:(1) 用冻结的 VAE 编码器将两模态图像编码到潜空间;(2) 在 UNet 的 Transformer 块中用 CSM 替换原有自注意力层,实现跨模态对齐与融合;(3) 训练时对 RGB 图像施加错位增强以提升鲁棒性;(4) 加入 skip connection 增强结构一致性;(5) 用 RAM 从 RGB 图像生成文本提示提供语义引导;(6) 用 LoRA 微调 UNet(rank=16)和 VAE 解码器(rank=4)。
关键设计一:跨模态自注意力模块(CSM)¶
- 做什么:在 UNet 的 Transformer 块中实现 RGB 与热红外的隐式对齐和融合。
- 核心思路:将 RGB 和热图像的潜变量 token 拼接为一个序列 \(\{z_{RGB}, z_{th}\} \in \mathbb{R}^{B \times (M \times H \times W) \times C}\),让自注意力同时计算模态内(thermal-thermal)和模态间(RGB-thermal)的依赖关系,无需额外参数。
- 设计动机:相比标准 Cross-Attention 仅捕获模态间信息而忽略模态内空间上下文,CSM 通过联合序列的 Self-Attention 同时建模两种关系。相比特征拼接+FC 的静态投影,CSM 具有内容自适应能力。受视频/多视角扩散模型启发。
关键设计二:错位增强策略(Misalignment Augmentation)¶
- 做什么:在训练时对 RGB 图像施加可控的空间变换(平移、缩放、旋转、透视畸变)。
- 核心思路:模拟实际多相机场景中因视差和时间不同步造成的几何偏移,无需物理仿真。
- 设计动机:现有 RGB-热红外数据集严格像素对齐,模型容易过拟合特定标定配置。通过注入人工错位,迫使 CSM 学习在未标定条件下的鲁棒跨模态对应关系,弥合训练数据与实际部署环境的差距。
关键设计三:潜空间扩散与 Skip Connection¶
- 做什么:利用 SD-Turbo 的单步扩散在潜空间中生成高保真热图像,并用零初始化 skip connection 将编码器特征图传递到解码器。
- 核心思路:扩散模型的生成先验可以补充热红外数据不足的问题,合成逼真的高频细节;skip connection 保持几何结构一致性。
- 设计动机:纯 CNN/Transformer 方法在严重退化下产生过于平滑的结果,而扩散模型能生成高频细节但可能引入几何失真,skip connection 有效缓解此问题。
损失函数与训练策略¶
- 损失函数:\(\mathcal{L} = \mathcal{L}_2 + \lambda \cdot \mathcal{L}_{\text{LPIPS}}\),其中 \(\lambda = 1\),结合像素级 L2 损失和感知损失 LPIPS。
- 优化器:Adam,学习率 \(2 \times 10^{-5}\),batch size = 4。
- 训练耗时:单卡 A800(80GB)约 4 小时(8000 iterations)。
- LoRA 配置:UNet rank=16,VAE decoder rank=4。
- 训练数据:10,922 对 RGB-热红外图像,来自 IRVI、LLVIP、M3FD、PBVS 2025 四个数据集。
实验关键数据¶
表1:公开数据集定量对比¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | MANIQA↑ | MUSIQ↑ |
|---|---|---|---|---|---|
| CoReFusion | 30.11 | 0.8588 | 0.3214 | 0.2771 | 28.35 |
| CoRPLE | 30.47 | 0.8642 | 0.3206 | 0.2833 | 30.46 |
| SwinFuSR | 29.85 | 0.8549 | 0.3085 | 0.2740 | 29.86 |
| SeeSR | 29.41 | 0.8495 | 0.1828 | 0.4278 | 35.22 |
| OSEDiff | 28.05 | 0.8422 | 0.2113 | 0.4014 | 36.30 |
| DifIISR | 27.48 | 0.7905 | 0.3484 | 0.4214 | 36.74 |
| 3M-TI (Ours) | 30.09 | 0.8610 | 0.1787 | 0.4443 | 36.66 |
3M-TI 在感知指标(LPIPS、MANIQA、MUSIQ)上全面最优,同时在保真度指标(PSNR、SSIM)上优于其他扩散方法。
表2:下游目标检测性能对比¶
| 方法 | Precision↑ | Recall↑ | F1↑ | IoU↑ |
|---|---|---|---|---|
| SwinPaste | 0.1800 | 0.2109 | 0.1765 | 0.1941 |
| SeeSR | 0.3832 | 0.4637 | 0.3849 | 0.3022 |
| 3M-TI | 0.4565 | 0.5455 | 0.4724 | 0.3427 |
| Reference RGB | 0.4322 | 0.5708 | 0.4643 | 0.3359 |
| GT Thermal | 0.4582 | 0.5793 | 0.4887 | 0.3494 |
3M-TI 的检测性能甚至略超 RGB 参考图,接近 GT 热图像水平。
消融实验关键结论¶
- 去掉 RGB 参考:重建模糊,LPIPS 从 0.1787 恶化到 0.2106。
- 去掉错位增强:MUSIQ 从 36.66 降至 34.94,高频细节退化明显。
- 去掉 Skip Connection:结构保真度下降(PSNR 从 30.09 降至 29.86),圆形车轮等几何形状失真。
- CSM 优于标准 Cross-Attn(LPIPS 0.1787 vs 0.1953)和特征拼接(0.1787 vs 0.2164)。
亮点与洞察¶
- 无需标定的跨模态融合是本文最核心的实用价值——在 VAE 潜空间中通过注意力机制实现隐式对齐,彻底规避了实际部署中的标定难题。
- CSM 的设计简洁有效:不引入额外参数,仅通过 token 拼接+自注意力就同时捕获模态内外依赖,是对视频扩散模型多帧处理思路的巧妙迁移。
- 错位增强策略思路新颖,用简单的几何变换代替复杂的物理仿真,有效提升泛化能力。
- 下游任务验证充分:不仅做感知质量评估,还验证了对目标检测和语义分割的实质性提升,证明超分的实用价值。
- 实际硬件验证:使用不到 100 美元的 HIKVISION P09 热相机模块 + 小米 15 手机搭建真实系统,工程可行性强。
局限性¶
- 单步扩散的质量上限:基于 SD-Turbo 的单步推理虽然高效,但生成质量可能不及多步扩散方法。
- 语义引导依赖 RAM:对 RGB 输入质量有要求,低光、运动模糊等退化的 RGB 参考图可能导致错误语义提示。
- FOV 差异处理不充分:RGB 和热相机的视场角不同(74°×59° vs 50°×50°),当 FOV 差异更大时鲁棒性待验证。
- 仅验证 8× 超分(64→512):对于不同放大倍数的适用性缺少讨论。
- 测试时的推理开销未充分讨论:UNet 中的跨模态自注意力序列长度为 \(2HW\),在高分辨率场景下的计算复杂度需要关注。
相关工作与启发¶
- CoReFusion / SwinFuSR / SwinPaste:传统 RGB 引导热图像 SR 方法,依赖标定且保真度优先,缺少高频细节。
- SeeSR / OSEDiff:基于扩散的图像 SR,能生成高频内容但缺乏跨模态引导,容易引入 artifact。
- DifIISR:红外专用扩散 SR,但依赖严格对齐数据。
- Stable Video Diffusion:多帧联合自注意力的思路是 CSM 的直接灵感来源。
- 启发:无标定跨模态融合的思路可推广到其他模态对(如深度-RGB、SAR-光学),错位增强策略具有通用性。
评分¶
- 新颖性: ⭐⭐⭐⭐ — CSM 和错位增强策略新颖,无标定设定有实际意义
- 实验充分度: ⭐⭐⭐⭐ — 公开数据集+真实手机系统+下游任务+消融,覆盖面广
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分,图表丰富
- 实用价值: ⭐⭐⭐⭐⭐ — 无标定+低成本硬件+移动端部署,工程实用性极强