CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing¶

会议: CVPR2026 arXiv: 2603.08589 代码: 待公开领域: image_generation 关键词: 图像编辑, Mixture-of-Experts, 条件感知路由, Diffusion Transformer, 多模态融合

一句话总结¶

提出 CARE-Edit，一种条件感知的专家路由框架，通过异构专家（Text/Mask/Reference/Base）配合轻量级 latent-attention 路由器，在 DiT 骨干上实现动态计算分配，有效解决统一图像编辑器中多条件信号（文本、掩码、参考图）冲突导致的颜色溢出、身份漂移等问题。

背景与动机¶

统一编辑器的任务干扰：现有统一扩散编辑器（如 OmniGen2、ACE++）使用固定共享骨干处理所有编辑任务，无法适应异构需求（局部 vs 全局、语义 vs 光度），导致不同任务之间相互干扰。
静态融合的根本缺陷：ControlNet 和 OmniControl 等方法通过简单拼接或加性 adapter 融合多模态条件（文本、掩码、参考图），无法根据去噪过程动态调整不同信号的优先级。这导致文本语义可能覆盖掩码约束，参考身份/风格被错误应用。
条件信号的时变重要性：在扩散去噪轨迹中，不同条件的重要性随时间步变化——早期步骤注重语义布局，后期步骤关注边界细化和风格一致性，但静态方法无法适应这种动态平衡。
多条件冲突的具体表现：颜色在掩码边界溢出（color bleeding）、参考图的身份或风格漂移（identity/style drift）、全局调整侵入应保留的区域、多条件输入下的不可预测行为。
用户掩码质量不可控：用户提供的粗糙掩码与目标对象边界往往不对齐，直接使用会导致编辑伪影，需要在去噪过程中动态细化掩码。
MoE 在图像编辑中的应用不足：已有的 diffusion MoE（如 EC-DiT）使用同构专家，缺乏针对不同模态/条件的异构专家设计，无法从根本上解决多条件冲突。

方法详解¶

整体架构¶

CARE-Edit 在冻结的 DiT 骨干（基于 FLUX.1 Dev）中嵌入条件感知的专家路由，仅训练轻量级 adapter、路由器和融合层。核心包含三个模块：Routing Select、Mask Repaint 和 Latent Mixture。

四种异构专家¶

Text 专家：通过与文本 token 的交叉注意力进行语义推理和对象合成
Mask 专家：通过卷积操作结合细化掩码实现空间精度和边界细化
Reference 专家：通过 FiLM 调制从参考特征学习身份/风格一致的变换
Base 专家：通过与 base image 特征的交叉注意力维持全局一致性和背景保真

每个专家输出经 LayerNorm + Linear 投影保持特征尺度一致。

Routing Select（Top-K 路由）¶

对每个 token 计算 token-specific key（编码局部信息）和 global conditioning query（编码编辑任务目标）
通过 MLP 计算各专家的 logit 分数，经 softmax 归一化后选取 top-K（K=3）个专家
路由温度 τ 在训练中逐步退火，对路由 logit 做 EMA 平滑以减少方差
固定比例 λ_shared 的 token 始终路由至共享专家，防止路由坍塌
最终通过凸残差融合聚合各专家输出

Mask Repaint（掩码细化）¶

在每个扩散步 t，利用当前 latent、参考编码和上一步预测掩码，通过卷积估计残差掩码场 Δm
经 sigmoid 激活后叠加到先前掩码：M̂(t) = clip(M̂(t-1) + Δm, 0, 1)
训练时施加边界一致性损失（梯度对齐 + 平滑正则），实现渐进式边界收紧
细化后的掩码反馈到下一个 DiT block 的路由过程中

Latent Mixture（专家输出融合）¶

Token-wise 融合：基于路由概率权重 w_e 对各专家输出做凸组合
Timestep-adaptive 混合：通过学习的时间步相关门控 γ 混合融合结果与 base 专家输出
TV 正则化鼓励混合权重图的空间平滑

渐进式训练课程¶

前 40K 步：基础单任务数据训练，建立通用表示
后 60K 步：切换到复杂多任务数据，让路由层从通用进化为专业化
总训练 100K 步，在 8×NVIDIA L20 上完成，学习率 1e-4，batch size 16

实验关键数据¶

表1：指令编辑性能对比（EMU-Edit & MagicBrush 测试集）¶

方法	类型	EMU-Edit CLIPim↑	CLIPout↑	L1↓	DINO↑	MagicBrush CLIPout↑	DINO↑
InstructPix2Pix	专用	0.834	0.219	0.121	0.762	0.245	0.767
EMU-Edit	专用	0.859	0.231	0.094	0.819	0.261	0.879
OmniGen2	统一	0.865	0.306	0.088	0.832	0.306	0.889
AnyEdit	统一	0.866	0.284	0.095	0.812	0.273	0.877
CARE-Edit	统一	0.868	0.313	0.082	0.835	0.324	0.885

表2：消融实验（DreamBench++ 多目标设定）¶

变体	DINO-I↑	CLIP-I↑	CLIP-T↑
w/o Experts	0.485	0.652	0.296
w/o Latent Mixture	0.509	0.678	0.301
w/o Mask Repaint	0.523	0.693	0.304
K=2	0.541	0.707	0.312
K=4	0.562	0.716	0.325
Full Model (K=3)	0.568	0.720	0.327

移除专家路由导致最大性能下降，验证了条件感知动态分配的核心价值。K=3 为最优。

亮点¶

异构专家设计精准对应编辑需求：四种专家分别处理语义、空间、风格、全局一致性，不同于传统同构 MoE 的通用设计，每个专家有明确的模态特化
任务感知动态路由：实验分析显示不同任务（擦除/替换/风格迁移/文本编辑）激活不同专家组合，验证了条件感知路由的有效性——Mask Expert 主导结构编辑，Reference Expert 主导风格迁移
Mask Repaint 实现渐进式掩码细化：利用扩散过程自身的 latent 信息逐步修正粗糙掩码，无需额外的分割模型
训练数据效率高：仅 120K 训练样本即达到与 OmniGen2 竞争的性能（后者数据量远多于此）
DreamBench++ 全面领先：在单目标和多目标设定下均优于 OmniGen2、UNO 等强基线

局限性 / 可改进方向¶

超参数敏感：top-K 值、路由温度退火策略、λ_shared 等 MoE 固有超参数需要仔细调节
专家集合固定：当前仅四种专家覆盖常见模态，面对新的编辑类型（如 3D 感知编辑、物理一致性编辑）可能需要动态专家加载或扩展
计算开销：虽然使用 sparse routing 和冻结骨干，但四个专家分支 + 路由器 + Mask Repaint 的额外计算量未在论文中明确量化
依赖 FLUX.1 预训练模型：框架的通用性受限于 DiT 骨干的选择，未验证在其他骨干（如 SD3、SDXL）上的适用性
MagicBrush 上 DINO 指标略低于 OmniGen2：在某些基准上并非全面领先

与相关工作的对比¶

vs OmniGen2/ACE++：统一编辑器基线，使用固定共享骨干处理所有任务，缺乏条件感知的动态计算分配。CARE-Edit 通过异构专家路由在多数指标上超越
vs ControlNet/OmniControl：通过静态拼接或加性 adapter 融合条件信号，无法动态优先级化或抑制冲突模态。CARE-Edit 的 top-K 路由实现 token 级别的条件选择
vs EC-DiT：同为 diffusion MoE，但 EC-DiT 使用同构专家 + expert-choice 路由，适用于通用生成。CARE-Edit 引入异构专家并按模态分工，专门解决多条件编辑冲突
vs DreamBooth/BLIP-Diffusion：主体驱动方法依赖 embedding 学习或 adapter，容易过拟合或编辑范围不可控。CARE-Edit 将参考引导作为条件能力交给专门专家处理

启发与关联¶

异构 MoE 的思路可推广到其他多模态生成任务（如文本+音频+视频的联合生成）
Mask Repaint 的渐进式掩码细化可独立应用于 inpainting 等需要精确空间控制的场景
条件感知路由的理念可与 LLM 领域的 MoE 结合，实现多任务指令跟随的动态专家分配

评分¶

新颖性: ⭐⭐⭐⭐ — 将异构 MoE 引入图像编辑解决多条件冲突是新颖的切入点，各模块设计合理
实验充分度: ⭐⭐⭐⭐ — 覆盖指令编辑和主体驱动两大场景，消融完整，但缺乏计算开销量化
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，专家激活分析和训练动态可视化增强了可解释性
价值: ⭐⭐⭐⭐ — 为统一图像编辑器的条件冲突问题提供了有效方案，实用价值高