跳转至

EVAFusion: 人类评价驱动的红外-可见光图像融合

日期: 2026-03-04
arXiv: 2603.03871
代码: 无
领域: 图像融合
关键词: infrared-visible fusion, human feedback, reward model, RLHF, GRPO

一句话总结

EVAFusion 首次构建了红外-可见光图像融合(IVIF)的大规模人类反馈数据集(含细粒度评分+伪影热图),训练融合导向的奖励模型,并通过 GRPO 策略优化将人类偏好注入融合网络,在 TNO/RoadScene/M³FD 上全面超越 SOTA 并显著提升下游检测/分割性能。

研究背景与动机

  1. 领域现状:IVIF 融合红外(热信息)和可见光(纹理细节)图像,应用于安防监控和自动驾驶。现有方法用手工设计的损失函数(如 SSIM、感知损失)优化。
  2. 现有痛点:(a) 手工损失与人类视觉偏好不对齐——客观指标高的图像不一定人眼觉得好;(b) IVIF 是 ill-posed 任务(无 ground truth),缺乏以人为中心的评估数据;(c) 现有方法无法定位和消除伪影。
  3. 核心矛盾:融合质量的评判标准应由人类视觉系统决定,但没有大规模人类反馈数据来训练这种偏好模型。
  4. 本文要解决什么? (1) 构建 IVIF 人类反馈数据集;(2) 训练可评分+定位伪影的奖励模型;(3) 将人类偏好注入融合网络。
  5. 切入角度:借鉴 LLM 领域 RLHF 的成功经验,将融合网络视为"策略",奖励模型编码人类偏好,用 GRPO 做策略优化。
  6. 核心 idea 一句话:构建 IVIF 人类反馈数据集训练奖励模型,通过区域级 GRPO 将人类偏好注入融合网络。

方法详解

整体框架

三阶段:(1) 人类反馈数据集构建 → (2) 融合导向奖励模型训练 → (3) GRPO 策略优化融合网络。

关键设计

  1. 人类反馈数据集:

    • 850 对红外/可见光图像 × 11 个 SOTA 融合方法 = 9,350 张融合图像
    • 4 个细粒度维度评分(1-5 分):热信息保留、纹理保留、伪影程度、清晰度 + 总体评分 + 伪影热图
    • 标注流程:100 张专家种子标注 → 微调 GPT-4o → 全量标注 → 专家审核
  2. 融合导向奖励模型:

    • 共享 ViT 编码器(ViT-Large-Patch16-384, frozen)分别处理红外/可见光/融合图像
    • 特征拼接 → fusion ViT → 两个分支:(a) 热图预测分支(伪影概率图);(b) 评分预测分支(4 维细粒度评分 via MLP)
    • 损失:\(\mathcal{L}_{total} = \lambda_1 \cdot \mathcal{L}_{score} + \lambda_2 \cdot \mathcal{L}_{heatmap}\)(均为 MSE)
  3. GRPO 策略优化:

    • 基础融合网络:DCEvo(编码器-解码器架构)
    • SAM 将融合图像分割为 K 个区域 → 奖励模型为每个区域评分 → 归一化相对优势
    • PPO-style clipped objective + KL 散度正则化(reference policy 为未优化的 DCEvo)
    • \(\beta=0.1\), \(\epsilon=0.2\), lr=1e-4, 20 epochs

训练策略

  • 奖励模型:AdamW, cosine annealing 2e-5→1e-5, 30 epochs
  • GRPO:Adam lr=1e-4, batch=2, 20 epochs, CosineAnnealingLR

实验关键数据

主实验

数据集 指标 EVAFusion 之前最佳 提升
TNO PSNR 65.43 64.19 +1.24
TNO CC 0.51 0.50 +0.01
RoadScene PSNR 61.84 60.91 +0.93
M³FD PSNR 65.09 - -
FMB 分割 mIoU 64.92 63.78 +1.14
M³FD 检测 mAP 62.23 - 4 类最佳

无参考指标(NIQE/BRISQUE)在所有数据集上均最优。人类偏好研究中排名最高。

消融实验

配置 TNO CC TNO PSNR 说明
Full model 0.51 65.43 完整 EVAFusion
w/o Score 分支 0.50 64.21 评分指导减弱
w/o Heatmap 分支 0.50 65.17 伪影定位缺失
w/o SAM 分割 0.48 65.03 区域级奖励退化为全局
Baseline (无 GRPO) 0.48 63.83 DCEvo 原始
DPO 0.49 63.98 配对偏好学习
PPO 0.49 63.59 标准 PPO

关键发现

  • GRPO > PPO > DPO:GRPO 的区域级相对优势比全局奖励更精确,PPO 缺乏区域粒度
  • SAM 分割关键:没有区域分割的全局 GRPO 在 CC 上显著退化,说明细粒度区域奖励是必要的
  • 人类偏好与客观指标一致:EVAFusion 同时在主观评价和客观指标上最优,验证了奖励模型的有效性

亮点与洞察

  • RLHF 范式从 LLM 迁移到底层视觉任务:证明人类偏好优化不仅适用于语言,也适用于融合/增强等 ill-posed 视觉任务
  • 区域级 GRPO 而非全局奖励:SAM 分割提供空间粒度的奖励信号——这种"分区评分再聚合"的思路适用于任何需要精细控制的图像生成/编辑任务

局限性 / 可改进方向

  • GPT-4o 标注可能有偏差:虽经专家审核,但 AI 标注的系统性偏差难以完全消除
  • 仅基于 DCEvo 一个融合网络:GRPO 是否对其他架构(如 U-Net、Transformer 融合器)也有效需验证
  • SAM 分割增加计算量:每张图需要额外的 SAM 推理

相关工作与启发

  • vs DeFusion/ReCoNet: 传统融合用手工损失,EVAFusion 用人类偏好驱动
  • vs RLHF for text2image (DPOK等): 类似思路,但 EVAFusion 针对融合任务设计了细粒度多维评分和伪影热图

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个 IVIF 人类反馈数据集 + GRPO 融合优化
  • 实验充分度: ⭐⭐⭐⭐ 多数据集、下游任务、人类偏好研究、策略消融完整
  • 写作质量: ⭐⭐⭐⭐ 方法流程清晰
  • 价值: ⭐⭐⭐⭐ 为底层视觉任务的人类偏好优化开辟新方向