跳转至

InEdit-Bench: 交互式图像编辑的中间逻辑路径基准

日期: 2026-03-04
arXiv: 2603.03657
代码: 无
领域: 图像生成
关键词: image editing, intermediate reasoning, benchmark, procedural reasoning, multi-step editing

一句话总结

InEdit-Bench 首次提出评估图像编辑模型"中间逻辑路径"能力的基准,包含 237 个人工标注实例覆盖 4 大类 16 子任务,发现即使最强的 GPT-Image-1 准确率仅 16.75%,大多数开源模型得分为 0%,揭示了当前模型在程序化推理上的巨大差距。

研究背景与动机

  1. 领域现状:图像编辑模型(GPT-Image、Flux-Kontext、OmniGen2 等)在单步静态编辑上越来越强。
  2. 现有痛点:(a) 现有基准只评最终输出,不评"到达最终状态的过程"——但很多编辑需要多步连贯的中间推理(如建房子需要先打地基再砌墙);(b) 缺乏动态推理和科学模拟的评估。
  3. 核心矛盾:"图像编辑"正从简单的风格变换演进为需要因果推理的过程模拟——给定初始和最终图像,模型需要生成逻辑一致的中间步骤序列。但没有基准来衡量这种能力。
  4. 本文要解决什么? 设计评估中间逻辑路径的基准,覆盖状态转换/动态过程/时间序列/科学模拟四大类。
  5. 切入角度:给初始图像 + 最终图像 + 文本提示,让模型生成 N 格网图展示中间步骤,评估逻辑连贯性、科学合理性和过程可信度。
  6. 核心 idea 一句话:首个评估编辑模型"中间过程推理"能力的基准,揭示当前模型在程序化推理上的根本性不足。

方法详解

整体框架

237 个手工标注实例,每个包含:初始图 + 最终图 + 文本提示(含关键中间步骤概述)→ 模型生成 N 格网图 → LMM-as-Judge (GPT-4o) 评估 6 个维度。

关键设计

  1. 任务分类体系:

    • 状态转换(4 子任务):建造/组装、装饰/涂装、组织/布局、加工/变形
    • 动态过程(5 子任务):生物/自然、协调运动、日常生活、机械操作、突发事件
    • 时间序列(4 子任务):环境/社会、生长/衰退、物理变化、时间度量
    • 科学模拟(3 子任务):物理、化学、生物
  2. 六维评估指标:

    • 3 个标准维度:外观一致性、感知质量、语义一致性
    • 3 个过程专用维度:逻辑连贯性(转换逻辑正确性)、科学合理性(科学定律遵循)、过程可信度(路径约束遵循)
    • 评估一致性:Human-LMM Pearson 相关 \(r=0.96\)

实验关键数据

主实验

14 个模型评估结果:

模型 总分 准确率 95% CI
GPT-Image-1 81.33 16.75% [79.04, 83.61]
Nano-Banana 75.23 13.30% [72.40, 77.96]
Flux-Kontext-pro 51.46 0.99% [48.59, 54.45]
Qwen-Image-Edit 49.60 0.49% [46.87, 52.43]
OmniGen2 37.92 0.49% -
InstructPix2Pix 23.23 0.00% -
OmniGen 14.34 0.00% -
Emu1 11.42 0.00% -

关键发现

  • GPT-Image-1 也仅 16.75% 准确率:程序化推理对所有模型都极具挑战性
  • 开源模型大多 0%:半数开源模型语义一致性低于 10.00,完全无法理解多步编辑
  • 状态转换最难:需要精确的因果推理链,而时间序列相对容易
  • 过程可信度分化严重:GPT-Image-1 达 89.00,开源模型大多 <30

亮点与洞察

  • "过程比结果更重要"的评估视角:不只评最终图像质量,而是评中间推理路径——这为图像编辑指出了全新的能力维度
  • 揭示了能力鸿沟:闭源模型在程序推理上也很弱,说明这是一个需要根本性突破的方向

局限性 / 可改进方向

  • 数据规模有限:237 个实例难以覆盖所有复杂场景
  • 任务分类可能不完备:16 子任务不一定穷尽所有可能
  • LMM 评估偏差:虽然 \(r=0.96\) 但在边缘案例上可能不准确

相关工作与启发

  • vs EditBench/MagicBrush: 它们评单步编辑质量,InEdit-Bench 评多步推理过程
  • vs VideoGen benchmarks: 视频生成评估时间连贯性,但不聚焦"给定初终态推理中间态"

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 全新的评估维度,填补空白
  • 实验充分度: ⭐⭐⭐⭐ 14 个模型全面评测,评估一致性有保证
  • 写作质量: ⭐⭐⭐⭐ 分类体系和评估指标设计合理
  • 价值: ⭐⭐⭐⭐⭐ 为图像编辑模型指出关键不足和未来方向