InEdit-Bench: 交互式图像编辑的中间逻辑路径基准¶
日期: 2026-03-04
arXiv: 2603.03657
代码: 无
领域: 图像生成
关键词: image editing, intermediate reasoning, benchmark, procedural reasoning, multi-step editing
一句话总结¶
InEdit-Bench 首次提出评估图像编辑模型"中间逻辑路径"能力的基准,包含 237 个人工标注实例覆盖 4 大类 16 子任务,发现即使最强的 GPT-Image-1 准确率仅 16.75%,大多数开源模型得分为 0%,揭示了当前模型在程序化推理上的巨大差距。
研究背景与动机¶
- 领域现状:图像编辑模型(GPT-Image、Flux-Kontext、OmniGen2 等)在单步静态编辑上越来越强。
- 现有痛点:(a) 现有基准只评最终输出,不评"到达最终状态的过程"——但很多编辑需要多步连贯的中间推理(如建房子需要先打地基再砌墙);(b) 缺乏动态推理和科学模拟的评估。
- 核心矛盾:"图像编辑"正从简单的风格变换演进为需要因果推理的过程模拟——给定初始和最终图像,模型需要生成逻辑一致的中间步骤序列。但没有基准来衡量这种能力。
- 本文要解决什么? 设计评估中间逻辑路径的基准,覆盖状态转换/动态过程/时间序列/科学模拟四大类。
- 切入角度:给初始图像 + 最终图像 + 文本提示,让模型生成 N 格网图展示中间步骤,评估逻辑连贯性、科学合理性和过程可信度。
- 核心 idea 一句话:首个评估编辑模型"中间过程推理"能力的基准,揭示当前模型在程序化推理上的根本性不足。
方法详解¶
整体框架¶
237 个手工标注实例,每个包含:初始图 + 最终图 + 文本提示(含关键中间步骤概述)→ 模型生成 N 格网图 → LMM-as-Judge (GPT-4o) 评估 6 个维度。
关键设计¶
-
任务分类体系:
- 状态转换(4 子任务):建造/组装、装饰/涂装、组织/布局、加工/变形
- 动态过程(5 子任务):生物/自然、协调运动、日常生活、机械操作、突发事件
- 时间序列(4 子任务):环境/社会、生长/衰退、物理变化、时间度量
- 科学模拟(3 子任务):物理、化学、生物
-
六维评估指标:
- 3 个标准维度:外观一致性、感知质量、语义一致性
- 3 个过程专用维度:逻辑连贯性(转换逻辑正确性)、科学合理性(科学定律遵循)、过程可信度(路径约束遵循)
- 评估一致性:Human-LMM Pearson 相关 \(r=0.96\)
实验关键数据¶
主实验¶
14 个模型评估结果:
| 模型 | 总分 | 准确率 | 95% CI |
|---|---|---|---|
| GPT-Image-1 | 81.33 | 16.75% | [79.04, 83.61] |
| Nano-Banana | 75.23 | 13.30% | [72.40, 77.96] |
| Flux-Kontext-pro | 51.46 | 0.99% | [48.59, 54.45] |
| Qwen-Image-Edit | 49.60 | 0.49% | [46.87, 52.43] |
| OmniGen2 | 37.92 | 0.49% | - |
| InstructPix2Pix | 23.23 | 0.00% | - |
| OmniGen | 14.34 | 0.00% | - |
| Emu1 | 11.42 | 0.00% | - |
关键发现¶
- GPT-Image-1 也仅 16.75% 准确率:程序化推理对所有模型都极具挑战性
- 开源模型大多 0%:半数开源模型语义一致性低于 10.00,完全无法理解多步编辑
- 状态转换最难:需要精确的因果推理链,而时间序列相对容易
- 过程可信度分化严重:GPT-Image-1 达 89.00,开源模型大多 <30
亮点与洞察¶
- "过程比结果更重要"的评估视角:不只评最终图像质量,而是评中间推理路径——这为图像编辑指出了全新的能力维度
- 揭示了能力鸿沟:闭源模型在程序推理上也很弱,说明这是一个需要根本性突破的方向
局限性 / 可改进方向¶
- 数据规模有限:237 个实例难以覆盖所有复杂场景
- 任务分类可能不完备:16 子任务不一定穷尽所有可能
- LMM 评估偏差:虽然 \(r=0.96\) 但在边缘案例上可能不准确
相关工作与启发¶
- vs EditBench/MagicBrush: 它们评单步编辑质量,InEdit-Bench 评多步推理过程
- vs VideoGen benchmarks: 视频生成评估时间连贯性,但不聚焦"给定初终态推理中间态"
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 全新的评估维度,填补空白
- 实验充分度: ⭐⭐⭐⭐ 14 个模型全面评测,评估一致性有保证
- 写作质量: ⭐⭐⭐⭐ 分类体系和评估指标设计合理
- 价值: ⭐⭐⭐⭐⭐ 为图像编辑模型指出关键不足和未来方向