T-FAKE: Synthesizing Thermal Images for Facial Landmarking¶

会议: CVPR 2025
arXiv: 2408.15127
代码: github.com/phflot/tfake
领域: 医学影像 / 人脸分析
关键词: 热红外图像合成, 面部关键点检测, 合成数据集, 域自适应, Wasserstein距离

一句话总结¶

提出 T-FAKE 数据集和 RGB2Thermal 损失函数，通过半监督热红外图像合成生成首个大规模合成热红外面部关键点数据集（20万张图像），在热红外域实现 SOTA 的稀疏/稠密面部关键点检测。

研究背景与动机¶

热红外成像在传染病筛查、情感状态分析、生物特征识别等领域具有重要应用价值，面部关键点检测是这些应用的核心基础任务。然而，热红外领域面临严重的数据瓶颈：

数据稀缺：现有最大的热红外面部关键点数据集仅包含数十到数百个个体（AACHEN 90人、CHARLOTTE 10人），而 RGB 领域的 MegaFace 2016 年就已达到 100 万张人脸
标注类型有限：现有热红外数据集多为稀疏关键点（5-72个点），缺少稠密关键点标注（>300点），限制了精细面部分析的可能性
实验室条件限制：大多数热红外数据集在受控实验室环境下采集，面部姿态单一（正脸居多），难以覆盖真实世界的复杂场景（阴影、不同肤色、多样表情）
域差异巨大：直接将 RGB 关键点检测器用于热红外图像表现不佳，特别是在挑战性场景下（鼻子冷却导致对比度反转、出汗、户外雨水），失败率高

核心思路：借鉴 RGB 领域合成数据（FAKE 数据集）训练关键点检测器的成功经验，设计专门的 RGB2Thermal 损失函数将 RGB 合成图像"热化"（thermalize），生成大规模合成热红外数据集，突破数据瓶颈。

方法详解¶

整体框架¶

方法包含三个阶段的训练 pipeline：(1) 热化网络 \(\mathcal{T}_\theta\)：基于 U-Net 的 RGB→Thermal 图像转换模型，使用三部分半监督损失函数训练；(2) 关键点预测网络 \(\mathcal{T}_\psi\)：基于 MobileNet V2 的概率关键点回归模型，在 FAKE + T-FAKE 数据集上联合训练，同时输出关键点位置和不确定性；(3) 标签适配网络 \(\mathcal{T}_\zeta\)：5 层全连接网络，实现不同关键点标注规范之间的转换。

关键设计¶

RGB2Thermal 损失函数:
- 功能：将合成 RGB 图像转换为逼真的热红外风格图像，确保在无配对训练数据的"野外"场景下也能生成高质量热红外图像
- 核心思路：三部分损失的组合——(a) 监督重建损失（公式1）：在配对 RGB-Thermal 数据（SEJONG 数据集，实验室条件）上最小化 L2 距离，提供基本的映射学习信号；(b) Wasserstein 距离项（公式2）：使用熵正则化 Wasserstein-2 距离对齐合成热红外图像与真实热红外图像的 patch 分布，通过 Sinkhorn 算法高效计算，并在多个图像尺度上应用，确保生成图像具有真实的热红外纹理统计特性；(c) 温度先验正则项（公式3）：利用面部 18 个语义区域（鼻子、眼睛、额头等）的临床温度统计数据，约束各区域的平均温度符合医学先验（如眼周较温暖、头皮较冷）
- 设计动机：纯监督方法只能学到实验室正脸条件下的热红外映射，无法泛化到合成数据中的复杂姿态、阴影和表情。Wasserstein 距离提供无监督的分布匹配，温度先验注入领域知识，二者协同实现域泛化
概率关键点预测（GLL+SW）:
- 功能：同时预测关键点位置和预测不确定性，并集成人脸检测功能
- 核心思路：将关键点预测建模为 \(L\) 个独立的二维高斯分布 \(\mathcal{N}(\mu_l, \sigma_l I_2)\)。优化负对数似然损失（包含位置精度项和不确定性预测项）。推理时使用多尺度滑动窗口（GLL+SW），选择平均标准差最小的窗口。通过阈值化平均不确定性 \(\bar{\sigma}\) 实现人脸检测（\(\bar{\sigma} < t\) 时检测到人脸）
- 设计动机：热红外中人脸外观变化大（温度/出汗等），概率建模自然量化预测置信度；不确定性信息可直接复用为人脸检测判据，避免额外训练检测器
标签适配网络:
- 功能：在不同关键点标注规范之间进行转换（如 3DA-2D 70点 → 2D 68点）
- 核心思路：训练 5 层全连接网络，输入一种规范下的预测坐标，输出目标规范下的坐标。仅在低维关键点坐标上训练，不依赖图像
- 设计动机：不同数据集使用不同标注规范（2D vs 3DA-2D，68点 vs 72点等），适配网络使单一模型可在多种评估标准下公平对比

损失函数 / 训练策略¶

热化网络损失：\(\mathcal{L}(\theta) = \text{MSE}_{paired} + \lambda_W \mathcal{W}_{2,E}^2(\mu_{FAKE}, \mu_T) + \lambda_R R(T_\theta(X_{FAKE}))\)

训练细节：训练两个模型对应"cold"和"warm"两种环境温度条件。热化网络在 256×256 分辨率上训练，推理时在 512×512 上生成（U-Net 分辨率无关）。关键点网络使用 MobileNet V2，图像尺寸 224×224，同时在 FAKE+T-FAKE 上训练。引入纹理图像（带随机关键点标注）作为负样本以学习有意义的不确定性估计。

实验关键数据¶

主实验（CHARLOTTE 热红外数据集上的 NME W/H↓）¶

方法	训练数据	High	Low	Side	Front	Full
Star	300W(RGB)	0.071	0.102	0.067	0.106	0.087
YOLO5Face	TFW(Thermal)	0.079	0.125	0.070	0.131	0.101
DAN	AACHEN(Thermal)	0.168	0.241	0.294	0.173	0.205
GLL+SW(RGB only)	FAKE	0.106	0.268	0.124	0.253	0.189
GLL+SW Sparse	FAKE+T-FAKE	0.068	0.124	0.065	0.129	0.097
GLL+SW (σ̄<6e-4)	FAKE+T-FAKE	0.067	0.112	0.059	0.118	0.089

消融实验¶

配置	效果	说明
仅监督（无正则）	伪影多，泛化差	过拟合实验室条件
+Wasserstein patch距离	纹理统计更自然	分布匹配有效
+温度先验	区域温差更明显	先验知识注入
完整半监督	最优效果	三项协同
Dense 478点	NME=0.113	首个稠密热红外检测
Sparse 70点	NME=0.097	稀疏更精确

关键发现¶

在 T-FAKE 上训练的多模态模型（NME=0.097）显著超越所有现有热红外关键点方法
多模态联合训练远优于 RGB→Thermal 直接迁移（NME 0.097 vs 0.189）
概率不确定性阈值机制可在牺牲少量覆盖率的情况下显著提升预测精度（NME 0.097→0.089）
半监督损失的域泛化能力远优于纯监督方法，特别是对侧脸、阴影和不同肤色
T-FAKE 数据集首次实现了 478 点稠密热红外关键点检测

亮点与洞察¶

数据集贡献重大：T-FAKE 是首个大规模合成热红外关键点数据集（20万张、≥2000 个体、稀疏+稠密标注），填补了热红外领域的关键空白
半监督损失设计精巧：Wasserstein patch 分布匹配 + 临床温度先验 + 配对监督，三者角色明确且互补
不确定性即检测：将关键点预测不确定性巧妙复用为人脸检测信号，简化了系统设计
分辨率无关训练：256²训练→512²生成的方案值得借鉴

局限与展望¶

热化模型基于 SEJONG 实验室数据集训练配对部分，可能对极端室外环境泛化有限
温度先验硬编码了 18 个区域的参考温度，个体化或动态温度建模可能进一步提升质量
稠密关键点的 GT 标注来自 Mediapipe 预测转移，存在一定噪声
未来可探索基于扩散模型的热化方法、视频级热红外关键点跟踪

评分¶

新颖性: ⭐⭐⭐⭐ RGB2Thermal 损失函数（Wasserstein + 温度先验）及首个大规模热红外关键点数据集
实验充分度: ⭐⭐⭐⭐ 在多 benchmark 上结构化评估，涵盖温度预测、感知质量、关键点精度
写作质量: ⭐⭐⭐⭐ 数学推导清晰，数据集对比详尽，方法论述完整
价值: ⭐⭐⭐⭐⭐ 数据集+方法对热红外社区有长期价值，方法对跨模态合成有启发