EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing¶

日期: 2026-03-16
arXiv: 2603.14916
代码: GitHub
领域: 图像生成 / 多模态VLM
关键词: 图像编辑评估, 人类偏好, 奖励模型, MLLM, 强化学习

一句话总结¶

构建百万级图像编辑数据集 EditHF-1M（44.3K 源图×23 个编辑模型→101 万编辑图，29.1M 人类偏好对+148K MOS 评分，覆盖 43 类编辑任务×三维评估），基于此训练 MLLM 评估模型 EditHF 在三维度全面超越现有方法，并作为 reward model 通过 RL 显著提升 Qwen-Image-Edit 的编辑能力。

研究背景与动机¶

领域现状: 文本引导图像编辑（TIE）模型快速进步（NanoBanana、Seedream4、Qwen-Image-Edit 等），但编辑结果仍常有伪影、意外修改、不美观等问题。多个评估基准已被提出（TedBench, EditVal, EBench-18K 等）。
现有痛点: 三个关键不足——(a) 内容多样性有限：大多数基准只覆盖少量编辑任务和源图（EditVal 648 张源图、IE-Bench 301 张），无法全面评估通用编辑模型；(b) 编辑模型覆盖不足：现有数据集通常不包含最新 SOTA 和闭源模型；(c) 缺乏模型改进能力验证：大多数基准仅作为静态评估工具，未验证能否作为 reward model 优化编辑模型。
核心矛盾: 评估模型需要大规模、多样化的人类偏好数据才能泛化，但现有数据集在编辑任务种类、模型覆盖和标注规模上都远不够。即使有微调的 MLLM 评估器（EditScore、EditReward），在未见过的编辑模型和任务上泛化性差。
切入角度: 从规模和多样性入手——收集 23 个 SOTA 编辑模型（含闭源）×43 类任务的百万级编辑结果，同时收集排名（组内相对比较）和评分（绝对质量）两种互补标注，覆盖视觉质量、编辑对齐、属性保持三个维度。
核心 idea: 构建迄今最大的图像编辑评估数据集 + 联合评分回归和偏好对比训练的统一 MLLM 评估模型 + 将评估模型作为 RL reward 优化编辑模型。

方法详解¶

整体框架¶

三大组件： - EditHF-1M 数据集：44.3K 源图 → 23 个模型编辑 → 101 万编辑图 → 人工标注 29.1M 偏好对 + 148K MOS - EditHF 评估模型：基于 InternVL3.5 的 MLLM，输入源图+编辑图+编辑指令，输出三维度质量分数 - EditHF-Reward：将 EditHF 作为 reward model 通过 RL 优化 Qwen-Image-Edit

关键设计¶

EditHF-1M 数据构建:
- 做什么：构建首个百万级多维度图像编辑评估数据集
- 源图来源：Pico-Banana-400K（26K 张）+ 摄影网站（20K 张）+ EBench-18K（低级任务）
- 43 类编辑任务：全局级（风格迁移、颜色调整）、目标级（添加/移除/属性修改）、人物级（表情/姿态变换）、低级（去噪/超分/去模糊）
- 23 个编辑模型：包含 Qwen-Image-Edit、OmniGen2（开源）及 NanoBanana、Seedream4（闭源）
- 设计动机：比最大的前作 EditReward（9,557 源图×6 模型）大 4.6× 源图、3.8× 模型、覆盖 43 vs 7 种任务
双模式标注策略（排名+评分）:
- 做什么：同时收集组内排名和绝对评分两种互补标注
- 排名标注：同一源图+编辑指令下不同模型的编辑结果按三维度独立排名，3 名标注员/组，从排名生成 \(C_M^2\) 偏好对。适合模型间局部比较但无法跨任务聚合
- 评分标注：49.4K 编辑图由 5 名标注员在 5 分连续量表上评分，经 Z-score 标准化。适合跨任务/跨内容比较
- 不一致检测：评分和偏好对交叉验证，不一致标注被剔除
- 设计动机：排名消除个人评分偏差提供可靠的相对判断；评分支持绝对比较和跨域分析。两者互补
EditHF 三阶段训练:
- 做什么：训练统一的评估+奖励模型
- Stage 1（文本学习）：将连续分数转为 5 级文本标签（bad/poor/fair/good/excellent），用 cross-entropy loss。MLLM 对文本信息理解更好，建立粗粒度质量感知
- Stage 2（逐点学习）：MSE loss 回归精确分数，获得绝对质量预测能力
- Stage 3（成对学习）：偏好对 loss \(\mathcal{L} = \log(1 + \exp(s_{neg} - s_{pos}))\)，先大排名差优先再小排名差，粗到细学习相对质量。优先处理排名差距大的对减少噪声
- 设计动机：逐点训练提供绝对分数但对微妙差异不敏感，成对训练捕捉细粒度相对偏好但无法跨组比较。三阶段结合让模型同时具备评估和奖励能力
EditHF-Reward（RL 微调编辑模型）:
- 做什么：将 EditHF 作为 reward signal 通过强化学习优化编辑模型
- 核心思路：Qwen-Image-Edit 生成编辑结果 → EditHF 评估三维度分数 → 作为 RL 奖励信号反向优化编辑模型
- 设计动机：闭合"评估→改进"循环，证明评估模型不仅能打分还能驱动模型进步

实验关键数据¶

EditHF 评估性能（EditHF-1M 测试集）¶

方法	视觉质量 SRCC_group	编辑对齐 SRCC_group	属性保持 SRCC_group	偏好对准确率(平均)
AHIQ✻ (FR-IQA)	0.822	0.325	0.822	~0.83
Q-align✻ (NR-IQA)	0.766	0.334	0.564	~0.79
Qwen3-VL 8B✻	0.867	0.850	0.917	~0.89
InternVL3 8B✻	0.828	0.854	0.914	~0.88
EditHF (Ours)	0.922	0.932	0.925	~0.92

EditHF 在所有三维度的组内 SRCC 和偏好对准确率上全面 SOTA。

EditHF-Reward 改进效果¶

维度	Qwen-Image-Edit (原始)	+ EditHF-Reward	提升
视觉质量排名得分	15.26	改进显著	—
编辑对齐排名得分	18.17	改进显著	—
属性保持排名得分	17.51	改进显著	—

关键发现¶

现有评估方法严重不足：传统 IQA（PSNR/SSIM）在编辑对齐维度 SRCC 仅 0.05-0.09，几乎无效；CLIPScore 在视觉质量上仅 0.035
零样本 MLLM 同样不够：Qwen3-VL 8B 零样本 SRCC_group 仅 0.30（视觉质量），微调后跃升至 0.87——说明编辑评估需要专门训练
数据规模效应显著：在 EditHF-1M 上微调的模型全面超越在更小数据集（EditScore、EditReward）上训练的同类模型
闭源 vs 开源差距明确：NanoBanana > Qwen-Image-Edit > Seedream4 在整体排名中，闭源方法在视觉质量和属性保持上优势明显

亮点与洞察¶

规模碾压一切：10× 于前作的数据规模直接带来泛化性提升，43 种编辑任务的覆盖让模型不对未见任务类型盲区
双模式标注巧妙互补：排名提供可靠相对判断（同组内），评分提供可比较的绝对质量（跨组），两者交叉验证还能检测标注不一致
三维度解耦评估：将编辑质量分解为视觉质量/编辑对齐/属性保持，比 single overall score 提供更多诊断信息，对模型改进有指导意义
评估→奖励的闭环：同一模型既能评分也能作为 RL reward，避免了评估和改进使用不同目标的问题

局限性 / 可改进方向¶

RL 微调仅在 Qwen-Image-Edit 上验证，对扩散模型基线（如 FLUX）的适用性待探索
评估模型基于 InternVL3.5，推理成本较高，实际大规模 reward 使用可能需要蒸馏更小的模型
低级编辑任务（去噪、超分）的标注可能与主观感知的相关性更弱，这部分数据质量有待验证
43 种任务的定义边界可能有重叠（如"风格迁移"和"颜色调整"），分类的一致性影响分析结论

评分¶

新颖性: ⭐⭐⭐ 核心思路（大数据+MLLM+RL reward）是自然延伸，但规模和完整度是真正的贡献
实验充分度: ⭐⭐⭐⭐⭐ 30+ 种对比方法、三维度评估、跨数据集泛化、RL 改进验证，极其全面
写作质量: ⭐⭐⭐⭐ 结构清晰，表格比较直观，数据分析充分
价值: ⭐⭐⭐⭐ 数据集本身对社区价值最大，评估模型和 reward 方案有直接实用性