InEdit-Bench: 交互式图像编辑的中间逻辑路径基准¶

日期: 2026-03-04
arXiv: 2603.03657
代码: 无
领域: 图像生成
关键词: image editing, intermediate reasoning, benchmark, procedural reasoning, multi-step editing

一句话总结¶

InEdit-Bench 首次提出评估图像编辑模型"中间逻辑路径"能力的基准，包含 237 个人工标注实例覆盖 4 大类 16 子任务，发现即使最强的 GPT-Image-1 准确率仅 16.75%，大多数开源模型得分为 0%，揭示了当前模型在程序化推理上的巨大差距。

研究背景与动机¶

领域现状：图像编辑模型（GPT-Image、Flux-Kontext、OmniGen2 等）在单步静态编辑上越来越强。
现有痛点：(a) 现有基准只评最终输出，不评"到达最终状态的过程"——但很多编辑需要多步连贯的中间推理（如建房子需要先打地基再砌墙）；(b) 缺乏动态推理和科学模拟的评估。
核心矛盾："图像编辑"正从简单的风格变换演进为需要因果推理的过程模拟——给定初始和最终图像，模型需要生成逻辑一致的中间步骤序列。但没有基准来衡量这种能力。
本文要解决什么？ 设计评估中间逻辑路径的基准，覆盖状态转换/动态过程/时间序列/科学模拟四大类。
切入角度：给初始图像 + 最终图像 + 文本提示，让模型生成 N 格网图展示中间步骤，评估逻辑连贯性、科学合理性和过程可信度。
核心 idea 一句话：首个评估编辑模型"中间过程推理"能力的基准，揭示当前模型在程序化推理上的根本性不足。

方法详解¶

整体框架¶

237 个手工标注实例，每个包含：初始图 + 最终图 + 文本提示（含关键中间步骤概述）→ 模型生成 N 格网图 → LMM-as-Judge (GPT-4o) 评估 6 个维度。

关键设计¶

任务分类体系:
- 状态转换（4 子任务）：建造/组装、装饰/涂装、组织/布局、加工/变形
- 动态过程（5 子任务）：生物/自然、协调运动、日常生活、机械操作、突发事件
- 时间序列（4 子任务）：环境/社会、生长/衰退、物理变化、时间度量
- 科学模拟（3 子任务）：物理、化学、生物
六维评估指标:
- 3 个标准维度：外观一致性、感知质量、语义一致性
- 3 个过程专用维度：逻辑连贯性（转换逻辑正确性）、科学合理性（科学定律遵循）、过程可信度（路径约束遵循）
- 评估一致性：Human-LMM Pearson 相关 \(r=0.96\)

实验关键数据¶

主实验¶

14 个模型评估结果：

模型	总分	准确率	95% CI
GPT-Image-1	81.33	16.75%	[79.04, 83.61]
Nano-Banana	75.23	13.30%	[72.40, 77.96]
Flux-Kontext-pro	51.46	0.99%	[48.59, 54.45]
Qwen-Image-Edit	49.60	0.49%	[46.87, 52.43]
OmniGen2	37.92	0.49%	-
InstructPix2Pix	23.23	0.00%	-
OmniGen	14.34	0.00%	-
Emu1	11.42	0.00%	-

关键发现¶

GPT-Image-1 也仅 16.75% 准确率：程序化推理对所有模型都极具挑战性
开源模型大多 0%：半数开源模型语义一致性低于 10.00，完全无法理解多步编辑
状态转换最难：需要精确的因果推理链，而时间序列相对容易
过程可信度分化严重：GPT-Image-1 达 89.00，开源模型大多 <30

亮点与洞察¶

"过程比结果更重要"的评估视角：不只评最终图像质量，而是评中间推理路径——这为图像编辑指出了全新的能力维度
揭示了能力鸿沟：闭源模型在程序推理上也很弱，说明这是一个需要根本性突破的方向

局限性 / 可改进方向¶

数据规模有限：237 个实例难以覆盖所有复杂场景
任务分类可能不完备：16 子任务不一定穷尽所有可能
LMM 评估偏差：虽然 \(r=0.96\) 但在边缘案例上可能不准确

评分¶

新颖性: ⭐⭐⭐⭐⭐ 全新的评估维度，填补空白
实验充分度: ⭐⭐⭐⭐ 14 个模型全面评测，评估一致性有保证
写作质量: ⭐⭐⭐⭐ 分类体系和评估指标设计合理
价值: ⭐⭐⭐⭐⭐ 为图像编辑模型指出关键不足和未来方向