CAMILA: Context-Aware Masking for Image Editing with Language Alignment¶

基本信息¶

arXiv: 2509.19731
会议: NeurIPS 2025
作者: Hyunseung Kim, Chiho Choi, Srikanth Malla, Sai Prahladh Padmanabhan, Saurabh Bagchi, Joon Hee Choi
机构: Purdue University, Honda Research Institute
代码: 未开源

提出 CAMILA，一种上下文感知的图像编辑方法，能够判断用户指令是否在当前图像上下文中可行，仅执行可行的编辑指令而忽略不可执行的指令，在单指令和多指令编辑场景中均优于现有方法。

文本引导的图像编辑已取得显著进展（InstructPix2Pix, MagicBrush 等），但现有模型有一个关键盲点：它们盲目尝试执行所有用户指令，即使指令不可行或自相矛盾。例如： - "把猫变成狗"但图中没有猫 - "更换天空颜色"但图片是室内场景 - 多条指令中部分可行、部分不可行

这导致模型生成无意义的输出或错误地修改图像。关键问题：模型缺乏上下文理解能力，无法判断指令与图像内容的一致性。

如何让图像编辑模型具备上下文感知能力，能够验证指令的可行性，仅对合理指令执行编辑，忽略不可执行的指令？

CAMILA 的核心理念：在执行编辑前先做可行性检查。 - 利用视觉-语言对齐判断每条指令是否与图像内容语义一致 - 对不可行指令生成一个空 mask（不编辑任何区域） - 对可行指令生成精确的编辑区域 mask

构建了包含不可行指令的编辑数据集： - 单指令数据集：包含可行和不可行指令的混合 - 多指令数据集：包含部分可行、部分不可行的指令组合

Instruction Following 的可靠性：CAMILA 的思路可推广到所有 instruction-following 系统——先验证指令可行性再执行
与 VLM 推理的结合：可以用 VLM 做更强的可行性推理，而非简单的对齐分数
安全性角度：过滤不可行指令也是一种安全机制，防止有害编辑