3M-TI: High-Quality Mobile Thermal Imaging via Calibration-free Multi-Camera Cross-Modal Diffusion¶

会议: CVPR 2026
arXiv: 2511.19117
代码: GitHub
领域: segmentation / thermal imaging / image super-resolution
关键词: 热成像超分辨率, 跨模态扩散, 无标定融合, RGB引导, 移动端热成像

一句话总结¶

提出 3M-TI，一个无需标定的多相机跨模态扩散框架，通过在 VAE 潜空间中用跨模态自注意力（CSM）自动对齐并融合未标定的 RGB-热红外图像对，结合错位增强策略，在移动端热成像超分辨率任务上达到 SOTA，并显著提升下游目标检测与语义分割性能。

研究背景与动机¶

移动热成像的硬件瓶颈：移动平台热传感器因小型化导致孔径缩小、像素尺寸受限，输出图像模糊且信息不足（典型分辨率仅 96×96）。
单图超分的信息不足：单幅热图像缺少足够的高频信息来恢复精细结构，尤其在大放大倍数下效果欠佳。
RGB 引导方法依赖标定：现有 RGB 引导的热图像 SR 方法需要精确的像素级跨相机标定，实际部署中标定过程繁琐且缺乏鲁棒性。
跨模态域差异大：RGB 与热红外成像原理根本不同，直接合并特征容易引入不真实的纹理细节。
热红外数据集规模有限：相比 RGB 领域，热红外数据集规模小、场景多样性不足，限制了网络训练和泛化。
实际场景中的时空错位：多相机系统在实际使用中不可避免地存在视差和时间不同步问题，现有方法对此缺乏鲁棒性。

方法详解¶

整体框架¶

3M-TI 基于单步扩散模型 SD-Turbo 构建，输入为低分辨率热图像（64×64）与未标定的高分辨率 RGB 参考图（512×512）。流程：(1) 用冻结的 VAE 编码器将两模态图像编码到潜空间；(2) 在 UNet 的 Transformer 块中用 CSM 替换原有自注意力层，实现跨模态对齐与融合；(3) 训练时对 RGB 图像施加错位增强以提升鲁棒性；(4) 加入 skip connection 增强结构一致性；(5) 用 RAM 从 RGB 图像生成文本提示提供语义引导；(6) 用 LoRA 微调 UNet（rank=16）和 VAE 解码器（rank=4）。

关键设计一：跨模态自注意力模块（CSM）¶

做什么：在 UNet 的 Transformer 块中实现 RGB 与热红外的隐式对齐和融合。
核心思路：将 RGB 和热图像的潜变量 token 拼接为一个序列 \(\{z_{RGB}, z_{th}\} \in \mathbb{R}^{B \times (M \times H \times W) \times C}\)，让自注意力同时计算模态内（thermal-thermal）和模态间（RGB-thermal）的依赖关系，无需额外参数。
设计动机：相比标准 Cross-Attention 仅捕获模态间信息而忽略模态内空间上下文，CSM 通过联合序列的 Self-Attention 同时建模两种关系。相比特征拼接+FC 的静态投影，CSM 具有内容自适应能力。受视频/多视角扩散模型启发。

关键设计二：错位增强策略（Misalignment Augmentation）¶

做什么：在训练时对 RGB 图像施加可控的空间变换（平移、缩放、旋转、透视畸变）。
核心思路：模拟实际多相机场景中因视差和时间不同步造成的几何偏移，无需物理仿真。
设计动机：现有 RGB-热红外数据集严格像素对齐，模型容易过拟合特定标定配置。通过注入人工错位，迫使 CSM 学习在未标定条件下的鲁棒跨模态对应关系，弥合训练数据与实际部署环境的差距。

关键设计三：潜空间扩散与 Skip Connection¶

做什么：利用 SD-Turbo 的单步扩散在潜空间中生成高保真热图像，并用零初始化 skip connection 将编码器特征图传递到解码器。
核心思路：扩散模型的生成先验可以补充热红外数据不足的问题，合成逼真的高频细节；skip connection 保持几何结构一致性。
设计动机：纯 CNN/Transformer 方法在严重退化下产生过于平滑的结果，而扩散模型能生成高频细节但可能引入几何失真，skip connection 有效缓解此问题。

损失函数与训练策略¶

损失函数：\(\mathcal{L} = \mathcal{L}_2 + \lambda \cdot \mathcal{L}_{\text{LPIPS}}\)，其中 \(\lambda = 1\)，结合像素级 L2 损失和感知损失 LPIPS。
优化器：Adam，学习率 \(2 \times 10^{-5}\)，batch size = 4。
训练耗时：单卡 A800（80GB）约 4 小时（8000 iterations）。
LoRA 配置：UNet rank=16，VAE decoder rank=4。
训练数据：10,922 对 RGB-热红外图像，来自 IRVI、LLVIP、M3FD、PBVS 2025 四个数据集。

实验关键数据¶

表1：公开数据集定量对比¶

方法	PSNR↑	SSIM↑	LPIPS↓	MANIQA↑	MUSIQ↑
CoReFusion	30.11	0.8588	0.3214	0.2771	28.35
CoRPLE	30.47	0.8642	0.3206	0.2833	30.46
SwinFuSR	29.85	0.8549	0.3085	0.2740	29.86
SeeSR	29.41	0.8495	0.1828	0.4278	35.22
OSEDiff	28.05	0.8422	0.2113	0.4014	36.30
DifIISR	27.48	0.7905	0.3484	0.4214	36.74
3M-TI (Ours)	30.09	0.8610	0.1787	0.4443	36.66

3M-TI 在感知指标（LPIPS、MANIQA、MUSIQ）上全面最优，同时在保真度指标（PSNR、SSIM）上优于其他扩散方法。

表2：下游目标检测性能对比¶

方法	Precision↑	Recall↑	F1↑	IoU↑
SwinPaste	0.1800	0.2109	0.1765	0.1941
SeeSR	0.3832	0.4637	0.3849	0.3022
3M-TI	0.4565	0.5455	0.4724	0.3427
Reference RGB	0.4322	0.5708	0.4643	0.3359
GT Thermal	0.4582	0.5793	0.4887	0.3494

3M-TI 的检测性能甚至略超 RGB 参考图，接近 GT 热图像水平。

消融实验关键结论¶

去掉 RGB 参考：重建模糊，LPIPS 从 0.1787 恶化到 0.2106。
去掉错位增强：MUSIQ 从 36.66 降至 34.94，高频细节退化明显。
去掉 Skip Connection：结构保真度下降（PSNR 从 30.09 降至 29.86），圆形车轮等几何形状失真。
CSM 优于标准 Cross-Attn（LPIPS 0.1787 vs 0.1953）和特征拼接（0.1787 vs 0.2164）。

亮点与洞察¶

无需标定的跨模态融合是本文最核心的实用价值——在 VAE 潜空间中通过注意力机制实现隐式对齐，彻底规避了实际部署中的标定难题。
CSM 的设计简洁有效：不引入额外参数，仅通过 token 拼接+自注意力就同时捕获模态内外依赖，是对视频扩散模型多帧处理思路的巧妙迁移。
错位增强策略思路新颖，用简单的几何变换代替复杂的物理仿真，有效提升泛化能力。
下游任务验证充分：不仅做感知质量评估，还验证了对目标检测和语义分割的实质性提升，证明超分的实用价值。
实际硬件验证：使用不到 100 美元的 HIKVISION P09 热相机模块 + 小米 15 手机搭建真实系统，工程可行性强。

局限性¶

单步扩散的质量上限：基于 SD-Turbo 的单步推理虽然高效，但生成质量可能不及多步扩散方法。
语义引导依赖 RAM：对 RGB 输入质量有要求，低光、运动模糊等退化的 RGB 参考图可能导致错误语义提示。
FOV 差异处理不充分：RGB 和热相机的视场角不同（74°×59° vs 50°×50°），当 FOV 差异更大时鲁棒性待验证。
仅验证 8× 超分（64→512）：对于不同放大倍数的适用性缺少讨论。
测试时的推理开销未充分讨论：UNet 中的跨模态自注意力序列长度为 \(2HW\)，在高分辨率场景下的计算复杂度需要关注。

评分¶

新颖性: ⭐⭐⭐⭐ — CSM 和错位增强策略新颖，无标定设定有实际意义
实验充分度: ⭐⭐⭐⭐ — 公开数据集+真实手机系统+下游任务+消融，覆盖面广
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，图表丰富
实用价值: ⭐⭐⭐⭐⭐ — 无标定+低成本硬件+移动端部署，工程实用性极强