跳转至

EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing

日期: 2026-03-16
arXiv: 2603.14916
代码: GitHub
领域: 图像生成 / 多模态VLM
关键词: 图像编辑评估, 人类偏好, 奖励模型, MLLM, 强化学习

一句话总结

构建百万级图像编辑数据集 EditHF-1M(44.3K 源图×23 个编辑模型→101 万编辑图,29.1M 人类偏好对+148K MOS 评分,覆盖 43 类编辑任务×三维评估),基于此训练 MLLM 评估模型 EditHF 在三维度全面超越现有方法,并作为 reward model 通过 RL 显著提升 Qwen-Image-Edit 的编辑能力。

研究背景与动机

  1. 领域现状: 文本引导图像编辑(TIE)模型快速进步(NanoBanana、Seedream4、Qwen-Image-Edit 等),但编辑结果仍常有伪影、意外修改、不美观等问题。多个评估基准已被提出(TedBench, EditVal, EBench-18K 等)。

  2. 现有痛点: 三个关键不足——(a) 内容多样性有限:大多数基准只覆盖少量编辑任务和源图(EditVal 648 张源图、IE-Bench 301 张),无法全面评估通用编辑模型;(b) 编辑模型覆盖不足:现有数据集通常不包含最新 SOTA 和闭源模型;(c) 缺乏模型改进能力验证:大多数基准仅作为静态评估工具,未验证能否作为 reward model 优化编辑模型。

  3. 核心矛盾: 评估模型需要大规模、多样化的人类偏好数据才能泛化,但现有数据集在编辑任务种类、模型覆盖和标注规模上都远不够。即使有微调的 MLLM 评估器(EditScore、EditReward),在未见过的编辑模型和任务上泛化性差。

  4. 切入角度: 从规模和多样性入手——收集 23 个 SOTA 编辑模型(含闭源)×43 类任务的百万级编辑结果,同时收集排名(组内相对比较)和评分(绝对质量)两种互补标注,覆盖视觉质量、编辑对齐、属性保持三个维度。

  5. 核心 idea: 构建迄今最大的图像编辑评估数据集 + 联合评分回归和偏好对比训练的统一 MLLM 评估模型 + 将评估模型作为 RL reward 优化编辑模型。

方法详解

整体框架

三大组件: - EditHF-1M 数据集:44.3K 源图 → 23 个模型编辑 → 101 万编辑图 → 人工标注 29.1M 偏好对 + 148K MOS - EditHF 评估模型:基于 InternVL3.5 的 MLLM,输入源图+编辑图+编辑指令,输出三维度质量分数 - EditHF-Reward:将 EditHF 作为 reward model 通过 RL 优化 Qwen-Image-Edit

关键设计

  1. EditHF-1M 数据构建:

    • 做什么:构建首个百万级多维度图像编辑评估数据集
    • 源图来源:Pico-Banana-400K(26K 张)+ 摄影网站(20K 张)+ EBench-18K(低级任务)
    • 43 类编辑任务:全局级(风格迁移、颜色调整)、目标级(添加/移除/属性修改)、人物级(表情/姿态变换)、低级(去噪/超分/去模糊)
    • 23 个编辑模型:包含 Qwen-Image-Edit、OmniGen2(开源)及 NanoBanana、Seedream4(闭源)
    • 设计动机:比最大的前作 EditReward(9,557 源图×6 模型)大 4.6× 源图、3.8× 模型、覆盖 43 vs 7 种任务
  2. 双模式标注策略(排名+评分):

    • 做什么:同时收集组内排名和绝对评分两种互补标注
    • 排名标注:同一源图+编辑指令下不同模型的编辑结果按三维度独立排名,3 名标注员/组,从排名生成 \(C_M^2\) 偏好对。适合模型间局部比较但无法跨任务聚合
    • 评分标注:49.4K 编辑图由 5 名标注员在 5 分连续量表上评分,经 Z-score 标准化。适合跨任务/跨内容比较
    • 不一致检测:评分和偏好对交叉验证,不一致标注被剔除
    • 设计动机:排名消除个人评分偏差提供可靠的相对判断;评分支持绝对比较和跨域分析。两者互补
  3. EditHF 三阶段训练:

    • 做什么:训练统一的评估+奖励模型
    • Stage 1(文本学习):将连续分数转为 5 级文本标签(bad/poor/fair/good/excellent),用 cross-entropy loss。MLLM 对文本信息理解更好,建立粗粒度质量感知
    • Stage 2(逐点学习):MSE loss 回归精确分数,获得绝对质量预测能力
    • Stage 3(成对学习):偏好对 loss \(\mathcal{L} = \log(1 + \exp(s_{neg} - s_{pos}))\),先大排名差优先再小排名差,粗到细学习相对质量。优先处理排名差距大的对减少噪声
    • 设计动机:逐点训练提供绝对分数但对微妙差异不敏感,成对训练捕捉细粒度相对偏好但无法跨组比较。三阶段结合让模型同时具备评估和奖励能力
  4. EditHF-Reward(RL 微调编辑模型):

    • 做什么:将 EditHF 作为 reward signal 通过强化学习优化编辑模型
    • 核心思路:Qwen-Image-Edit 生成编辑结果 → EditHF 评估三维度分数 → 作为 RL 奖励信号反向优化编辑模型
    • 设计动机:闭合"评估→改进"循环,证明评估模型不仅能打分还能驱动模型进步

实验关键数据

EditHF 评估性能(EditHF-1M 测试集)

方法 视觉质量 SRCC_group 编辑对齐 SRCC_group 属性保持 SRCC_group 偏好对准确率(平均)
AHIQ✻ (FR-IQA) 0.822 0.325 0.822 ~0.83
Q-align✻ (NR-IQA) 0.766 0.334 0.564 ~0.79
Qwen3-VL 8B✻ 0.867 0.850 0.917 ~0.89
InternVL3 8B✻ 0.828 0.854 0.914 ~0.88
EditHF (Ours) 0.922 0.932 0.925 ~0.92

EditHF 在所有三维度的组内 SRCC 和偏好对准确率上全面 SOTA。

EditHF-Reward 改进效果

维度 Qwen-Image-Edit (原始) + EditHF-Reward 提升
视觉质量排名得分 15.26 改进显著
编辑对齐排名得分 18.17 改进显著
属性保持排名得分 17.51 改进显著

关键发现

  • 现有评估方法严重不足:传统 IQA(PSNR/SSIM)在编辑对齐维度 SRCC 仅 0.05-0.09,几乎无效;CLIPScore 在视觉质量上仅 0.035
  • 零样本 MLLM 同样不够:Qwen3-VL 8B 零样本 SRCC_group 仅 0.30(视觉质量),微调后跃升至 0.87——说明编辑评估需要专门训练
  • 数据规模效应显著:在 EditHF-1M 上微调的模型全面超越在更小数据集(EditScore、EditReward)上训练的同类模型
  • 闭源 vs 开源差距明确:NanoBanana > Qwen-Image-Edit > Seedream4 在整体排名中,闭源方法在视觉质量和属性保持上优势明显

亮点与洞察

  • 规模碾压一切:10× 于前作的数据规模直接带来泛化性提升,43 种编辑任务的覆盖让模型不对未见任务类型盲区
  • 双模式标注巧妙互补:排名提供可靠相对判断(同组内),评分提供可比较的绝对质量(跨组),两者交叉验证还能检测标注不一致
  • 三维度解耦评估:将编辑质量分解为视觉质量/编辑对齐/属性保持,比 single overall score 提供更多诊断信息,对模型改进有指导意义
  • 评估→奖励的闭环:同一模型既能评分也能作为 RL reward,避免了评估和改进使用不同目标的问题

局限性 / 可改进方向

  • RL 微调仅在 Qwen-Image-Edit 上验证,对扩散模型基线(如 FLUX)的适用性待探索
  • 评估模型基于 InternVL3.5,推理成本较高,实际大规模 reward 使用可能需要蒸馏更小的模型
  • 低级编辑任务(去噪、超分)的标注可能与主观感知的相关性更弱,这部分数据质量有待验证
  • 43 种任务的定义边界可能有重叠(如"风格迁移"和"颜色调整"),分类的一致性影响分析结论

相关工作与启发

  • vs EditReward: 9,557 源图/6 模型/7 任务 → EditHF-1M 44.3K 源图/23 模型/43 任务,规模和多样性全面碾压
  • vs EditScore: 也训练了 reward model 但基于 577 源图/11 模型,泛化性受限
  • vs EBench-18K: 标注规模接近但缺乏偏好对,且未验证 reward 能力
  • vs HPSv2/ImageReward: 针对图像生成而非编辑设计,在编辑对齐维度上近乎失效(SRCC 0.2-0.3)

评分

  • 新颖性: ⭐⭐⭐ 核心思路(大数据+MLLM+RL reward)是自然延伸,但规模和完整度是真正的贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 30+ 种对比方法、三维度评估、跨数据集泛化、RL 改进验证,极其全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,表格比较直观,数据分析充分
  • 价值: ⭐⭐⭐⭐ 数据集本身对社区价值最大,评估模型和 reward 方案有直接实用性