EVAFusion: 人类评价驱动的红外-可见光图像融合¶

日期: 2026-03-04
arXiv: 2603.03871
代码: 无
领域: 图像融合
关键词: infrared-visible fusion, human feedback, reward model, RLHF, GRPO

一句话总结¶

EVAFusion 首次构建了红外-可见光图像融合（IVIF）的大规模人类反馈数据集（含细粒度评分+伪影热图），训练融合导向的奖励模型，并通过 GRPO 策略优化将人类偏好注入融合网络，在 TNO/RoadScene/M³FD 上全面超越 SOTA 并显著提升下游检测/分割性能。

领域现状：IVIF 融合红外（热信息）和可见光（纹理细节）图像，应用于安防监控和自动驾驶。现有方法用手工设计的损失函数（如 SSIM、感知损失）优化。
现有痛点：(a) 手工损失与人类视觉偏好不对齐——客观指标高的图像不一定人眼觉得好；(b) IVIF 是 ill-posed 任务（无 ground truth），缺乏以人为中心的评估数据；(c) 现有方法无法定位和消除伪影。
核心矛盾：融合质量的评判标准应由人类视觉系统决定，但没有大规模人类反馈数据来训练这种偏好模型。
本文要解决什么？ (1) 构建 IVIF 人类反馈数据集；(2) 训练可评分+定位伪影的奖励模型；(3) 将人类偏好注入融合网络。
切入角度：借鉴 LLM 领域 RLHF 的成功经验，将融合网络视为"策略"，奖励模型编码人类偏好，用 GRPO 做策略优化。
核心 idea 一句话：构建 IVIF 人类反馈数据集训练奖励模型，通过区域级 GRPO 将人类偏好注入融合网络。

三阶段：(1) 人类反馈数据集构建 → (2) 融合导向奖励模型训练 → (3) GRPO 策略优化融合网络。

人类反馈数据集:
- 850 对红外/可见光图像 × 11 个 SOTA 融合方法 = 9,350 张融合图像
- 4 个细粒度维度评分（1-5 分）：热信息保留、纹理保留、伪影程度、清晰度 + 总体评分 + 伪影热图
- 标注流程：100 张专家种子标注 → 微调 GPT-4o → 全量标注 → 专家审核
融合导向奖励模型:
- 共享 ViT 编码器（ViT-Large-Patch16-384, frozen）分别处理红外/可见光/融合图像
- 特征拼接 → fusion ViT → 两个分支：(a) 热图预测分支（伪影概率图）；(b) 评分预测分支（4 维细粒度评分 via MLP）
- 损失：\(\mathcal{L}_{total} = \lambda_1 \cdot \mathcal{L}_{score} + \lambda_2 \cdot \mathcal{L}_{heatmap}\)（均为 MSE）
GRPO 策略优化:
- 基础融合网络：DCEvo（编码器-解码器架构）
- SAM 将融合图像分割为 K 个区域 → 奖励模型为每个区域评分 → 归一化相对优势
- PPO-style clipped objective + KL 散度正则化（reference policy 为未优化的 DCEvo）
- \(\beta=0.1\), \(\epsilon=0.2\), lr=1e-4, 20 epochs

数据集	指标	EVAFusion	之前最佳	提升
TNO	PSNR	65.43	64.19	+1.24
TNO	CC	0.51	0.50	+0.01
RoadScene	PSNR	61.84	60.91	+0.93
M³FD	PSNR	65.09	-	-
FMB 分割	mIoU	64.92	63.78	+1.14
M³FD 检测	mAP	62.23	-	4 类最佳

无参考指标（NIQE/BRISQUE）在所有数据集上均最优。人类偏好研究中排名最高。

配置	TNO CC	TNO PSNR	说明
Full model	0.51	65.43	完整 EVAFusion
w/o Score 分支	0.50	64.21	评分指导减弱
w/o Heatmap 分支	0.50	65.17	伪影定位缺失
w/o SAM 分割	0.48	65.03	区域级奖励退化为全局
Baseline (无 GRPO)	0.48	63.83	DCEvo 原始
DPO	0.49	63.98	配对偏好学习
PPO	0.49	63.59	标准 PPO