EVAFusion: 人类评价驱动的红外-可见光图像融合¶
日期: 2026-03-04
arXiv: 2603.03871
代码: 无
领域: 图像融合
关键词: infrared-visible fusion, human feedback, reward model, RLHF, GRPO
一句话总结¶
EVAFusion 首次构建了红外-可见光图像融合(IVIF)的大规模人类反馈数据集(含细粒度评分+伪影热图),训练融合导向的奖励模型,并通过 GRPO 策略优化将人类偏好注入融合网络,在 TNO/RoadScene/M³FD 上全面超越 SOTA 并显著提升下游检测/分割性能。
研究背景与动机¶
- 领域现状:IVIF 融合红外(热信息)和可见光(纹理细节)图像,应用于安防监控和自动驾驶。现有方法用手工设计的损失函数(如 SSIM、感知损失)优化。
- 现有痛点:(a) 手工损失与人类视觉偏好不对齐——客观指标高的图像不一定人眼觉得好;(b) IVIF 是 ill-posed 任务(无 ground truth),缺乏以人为中心的评估数据;(c) 现有方法无法定位和消除伪影。
- 核心矛盾:融合质量的评判标准应由人类视觉系统决定,但没有大规模人类反馈数据来训练这种偏好模型。
- 本文要解决什么? (1) 构建 IVIF 人类反馈数据集;(2) 训练可评分+定位伪影的奖励模型;(3) 将人类偏好注入融合网络。
- 切入角度:借鉴 LLM 领域 RLHF 的成功经验,将融合网络视为"策略",奖励模型编码人类偏好,用 GRPO 做策略优化。
- 核心 idea 一句话:构建 IVIF 人类反馈数据集训练奖励模型,通过区域级 GRPO 将人类偏好注入融合网络。
方法详解¶
整体框架¶
三阶段:(1) 人类反馈数据集构建 → (2) 融合导向奖励模型训练 → (3) GRPO 策略优化融合网络。
关键设计¶
-
人类反馈数据集:
- 850 对红外/可见光图像 × 11 个 SOTA 融合方法 = 9,350 张融合图像
- 4 个细粒度维度评分(1-5 分):热信息保留、纹理保留、伪影程度、清晰度 + 总体评分 + 伪影热图
- 标注流程:100 张专家种子标注 → 微调 GPT-4o → 全量标注 → 专家审核
-
融合导向奖励模型:
- 共享 ViT 编码器(ViT-Large-Patch16-384, frozen)分别处理红外/可见光/融合图像
- 特征拼接 → fusion ViT → 两个分支:(a) 热图预测分支(伪影概率图);(b) 评分预测分支(4 维细粒度评分 via MLP)
- 损失:\(\mathcal{L}_{total} = \lambda_1 \cdot \mathcal{L}_{score} + \lambda_2 \cdot \mathcal{L}_{heatmap}\)(均为 MSE)
-
GRPO 策略优化:
- 基础融合网络:DCEvo(编码器-解码器架构)
- SAM 将融合图像分割为 K 个区域 → 奖励模型为每个区域评分 → 归一化相对优势
- PPO-style clipped objective + KL 散度正则化(reference policy 为未优化的 DCEvo)
- \(\beta=0.1\), \(\epsilon=0.2\), lr=1e-4, 20 epochs
训练策略¶
- 奖励模型:AdamW, cosine annealing 2e-5→1e-5, 30 epochs
- GRPO:Adam lr=1e-4, batch=2, 20 epochs, CosineAnnealingLR
实验关键数据¶
主实验¶
| 数据集 | 指标 | EVAFusion | 之前最佳 | 提升 |
|---|---|---|---|---|
| TNO | PSNR | 65.43 | 64.19 | +1.24 |
| TNO | CC | 0.51 | 0.50 | +0.01 |
| RoadScene | PSNR | 61.84 | 60.91 | +0.93 |
| M³FD | PSNR | 65.09 | - | - |
| FMB 分割 | mIoU | 64.92 | 63.78 | +1.14 |
| M³FD 检测 | mAP | 62.23 | - | 4 类最佳 |
无参考指标(NIQE/BRISQUE)在所有数据集上均最优。人类偏好研究中排名最高。
消融实验¶
| 配置 | TNO CC | TNO PSNR | 说明 |
|---|---|---|---|
| Full model | 0.51 | 65.43 | 完整 EVAFusion |
| w/o Score 分支 | 0.50 | 64.21 | 评分指导减弱 |
| w/o Heatmap 分支 | 0.50 | 65.17 | 伪影定位缺失 |
| w/o SAM 分割 | 0.48 | 65.03 | 区域级奖励退化为全局 |
| Baseline (无 GRPO) | 0.48 | 63.83 | DCEvo 原始 |
| DPO | 0.49 | 63.98 | 配对偏好学习 |
| PPO | 0.49 | 63.59 | 标准 PPO |
关键发现¶
- GRPO > PPO > DPO:GRPO 的区域级相对优势比全局奖励更精确,PPO 缺乏区域粒度
- SAM 分割关键:没有区域分割的全局 GRPO 在 CC 上显著退化,说明细粒度区域奖励是必要的
- 人类偏好与客观指标一致:EVAFusion 同时在主观评价和客观指标上最优,验证了奖励模型的有效性
亮点与洞察¶
- RLHF 范式从 LLM 迁移到底层视觉任务:证明人类偏好优化不仅适用于语言,也适用于融合/增强等 ill-posed 视觉任务
- 区域级 GRPO 而非全局奖励:SAM 分割提供空间粒度的奖励信号——这种"分区评分再聚合"的思路适用于任何需要精细控制的图像生成/编辑任务
局限性 / 可改进方向¶
- GPT-4o 标注可能有偏差:虽经专家审核,但 AI 标注的系统性偏差难以完全消除
- 仅基于 DCEvo 一个融合网络:GRPO 是否对其他架构(如 U-Net、Transformer 融合器)也有效需验证
- SAM 分割增加计算量:每张图需要额外的 SAM 推理
相关工作与启发¶
- vs DeFusion/ReCoNet: 传统融合用手工损失,EVAFusion 用人类偏好驱动
- vs RLHF for text2image (DPOK等): 类似思路,但 EVAFusion 针对融合任务设计了细粒度多维评分和伪影热图
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个 IVIF 人类反馈数据集 + GRPO 融合优化
- 实验充分度: ⭐⭐⭐⭐ 多数据集、下游任务、人类偏好研究、策略消融完整
- 写作质量: ⭐⭐⭐⭐ 方法流程清晰
- 价值: ⭐⭐⭐⭐ 为底层视觉任务的人类偏好优化开辟新方向