跳转至

Agentic Retoucher for Text-To-Image Generation

会议: CVPR 2026
arXiv: 2601.02046
代码: 待确认
领域: 图像生成
关键词: 文本到图像生成, 后处理校正, 多智能体系统, 失真检测, 图像修复

一句话总结

将 T2I 扩散模型输出的局部失真(手指畸变、面部异常、文字错误等)校正问题建模为感知-推理-行动的多智能体循环系统 Agentic Retoucher,通过 Perception Agent 的上下文感知失真显著性图定位缺陷、Reasoning Agent 的结构化推理诊断失真类型、Action Agent 的工具选择执行修复,并配合 GenBlemish-27K 数据集实现端到端的迭代式自动修正。

研究背景与动机

当前 T2I 扩散模型(如 SDXL、DALL-E 3)的生成质量持续提升,但在局部细节上仍普遍存在结构性失真问题:

  • 手部畸变:多余/缺失手指、关节错位,占比高达 46.8%
  • 面部异常:五官比例失调、不对称
  • 文字渲染错误:字母缺失、笔画扭曲
  • 物理不合理:透视错误、遮挡关系矛盾

现有的后处理方案主要依赖 VLM(如 GPT-4V)做 critic,但存在两个关键瓶颈:

  1. 弱空间定位:VLM 擅长整体语义判断,但难以精确定位像素级失真区域,给出的描述往往是模糊的自然语言而非可操作的空间坐标
  2. 幻觉问题:VLM 可能将正常区域误判为失真,或对真实缺陷视而不见,导致不必要的修改或遗漏关键问题

Agentic Retoucher 的核心洞察是:与其依赖单个通用 VLM 完成定位+判断+修复全流程,不如将问题分解为感知-推理-行动三个专门化智能体,各司其职并通过迭代循环实现渐进式校正。

方法详解

整体框架

Agentic Retoucher 采用三阶段循环架构:

  1. Perception Agent(感知):检测并定位图像中的失真区域,输出二值化 mask 候选集 \(\{M_i\}\)
  2. Reasoning Agent(推理):对每个失真区域进行类型诊断和自然语言描述,输出 \(\{D_i\}\)
  3. Action Agent(行动):根据 mask 和描述选择合适的修复工具执行 inpainting

三个 Agent 通过迭代循环协作:修复后的图像重新送入 Perception Agent 验证,若显著性分数 \(S > \tau\) 则继续循环,否则终止。

关键设计

1. Perception Agent —— 上下文感知失真显著性检测

  • 编码器:ViT 提取视觉特征 + T5 编码文本 prompt 的语义特征,双流融合
  • 注意力精炼(Attention Refinement):跨模态注意力将文本语义注入视觉特征,使模型理解"什么地方应该是什么样"从而更准确地判断偏差
  • 输出:逐像素的 context-aware distortion saliency map \(S \in [0, 1]^{H \times W}\)
  • 训练损失: $\(\mathcal{L}_{\text{percept}} = \alpha \cdot \text{MSE}(S, S_{\text{gt}}) + (1 - \alpha) \cdot \text{KLD}(S \| S_{\text{human}})\)$ 其中 \(S_{\text{human}}\) 为人类注视分布(eye-tracking 数据),KLD 项使模型的失真判断与人类视觉关注对齐
  • 后处理:对 \(S\) 进行二值化(阈值 \(\theta\))+ 形态学膨胀生成 mask 候选集 \(\{M_i\}\),膨胀确保修复区域覆盖失真边界

2. Reasoning Agent —— 结构化失真诊断

  • 基座:基于 VLM 进行 SFT,采用 LoRA 高效微调
  • 结构化初始化:将失真分类体系(12 类 artifact)编码为结构化 prompt,引导模型输出标准化诊断结果
  • GRPO 人类偏好对齐:Group Relative Policy Optimization,使用人类标注的偏好对比数据进一步对齐——使诊断描述更符合人类对失真严重程度和类型的判断
  • 输出:每个 mask 区域对应的失真类型标签 + 自然语言描述 \(\{D_i\} = \{(\text{type}_i, \text{desc}_i)\}\)

3. Action Agent —— 工具选择与修复执行

  • 工具库(Tool Library)
  • Mask-guided inpainting:基于 mask 的局部重绘,适用于结构明确的失真(如多余手指)
  • Instruction-driven inpainting:基于自然语言指令的修复,适用于需要语义理解的失真(如表情不自然)
  • 选择策略:根据失真类型 \(\text{type}_i\) 自动路由到最合适的工具
  • 迭代验证:修复后的图像重新经 Perception Agent 评估,若仍存在显著失真则进入下一轮循环

损失函数 / 训练策略

Perception Agent 训练: - 混合损失:MSE 保证像素级精度,KLD 保证与人类注视分布一致 - \(\alpha = 0.7\)(消融实验确定)

Reasoning Agent 训练: - 第一阶段:SFT + LoRA 在 GenBlemish-27K 标注数据上微调 - 第二阶段:GRPO 偏好对齐,使用人类 A/B 对比数据优化

GenBlemish-27K 数据集构建: - 6K 张 T2I 生成图像,人工标注 27K 个失真区域 - 12 类 artifact 分布:hand(46.8%)、face(15.7%)、text(8.3%)、body(7.2%)等 - 每个标注包含:bounding box、pixel-level mask、失真类型、严重程度、自然语言描述

实验关键数据

主实验

方法 Plausibility↑ Aesthetics↑ Human Pref. (%)↑
原始 T2I 输出 44.21 5.32
VLM-Critic (GPT-4V) 45.03 5.41 61.5
HiveMind 45.67 5.48 68.3
Agentic Retoucher 47.10 5.63 83.2

Agentic Retoucher 在 Plausibility 上从 44.21 提升至 47.10(+2.89),83.2% 的人类评审者偏好修复后的结果。

消融实验

配置 Plausibility↑ Human Pref.↑
仅 Perception(无 Reasoning) 45.38 69.1%
仅 Perception + Reasoning(无迭代) 46.22 76.4%
无 KLD 对齐 46.01 73.8%
无 GRPO 偏好对齐 46.45 78.1%
完整 Agentic Retoucher 47.10 83.2%

关键发现

  • 迭代循环至关重要:单次修复 vs 迭代修复,人类偏好从 76.4% 提升到 83.2%,说明部分失真需要多轮渐进校正
  • KLD 人类注视对齐有效:去除后 Plausibility 下降 1.09,说明让感知模型与人类视觉关注一致能显著提升定位精度
  • GRPO 偏好对齐贡献稳定:去除后偏好率从 83.2% 降至 78.1%,验证人类偏好信号对推理质量的提升
  • 分类别分析:手部失真修复提升最显著(+3.8 Plausibility),面部次之(+2.1),文字最难(+0.9)

亮点与洞察

  1. 问题解耦精妙:将"发现问题-诊断问题-修复问题"拆分为三个专门化智能体,比用通用 VLM 做所有事更可靠——符合软件工程的关注点分离原则
  2. 人类先验的两层注入:Perception Agent 用 KLD 对齐人类注视分布(低层感知),Reasoning Agent 用 GRPO 对齐人类偏好(高层语义),形成互补
  3. GenBlemish-27K 数据集价值:首个大规模 T2I 失真标注数据集,12 类 artifact 的细粒度标注为后续研究提供基准
  4. 迭代循环的实用性:类比人类修图的"发现→修改→检查→再修改"流程,系统设计贴合实际应用需求

局限性 / 可改进方向

  • 依赖预训练 inpainting 模型的修复质量上限;若基础修复工具本身不够强,Agent 的决策再好也无法产出优良结果
  • 迭代循环的终止条件(阈值 \(\tau\))需要手动设定,对不同失真类型可能需要自适应调整
  • 手部失真占比 46.8%,数据集存在类别不平衡;对少数类(如透视错误)的修复效果可能不足
  • 文字类失真修复效果有限(+0.9),可能需要引入专门的文字渲染模型
  • 推理开销:三个 Agent 串行 + 多轮迭代,整体延迟较高,实时应用受限

相关工作与启发

  • Instruct-Pix2Pix / MagicBrush:基于指令的图像编辑方法,但缺乏自动失真检测能力
  • VLM-as-Judge 范式:GPT-4V 作为 critic 的方案,本文指出其空间定位弱和幻觉问题
  • 显著性检测:借鉴 eye-tracking 预测领域的人类注视对齐思路
  • RLHF / GRPO:将 LLM 对齐技术迁移到视觉推理任务中
  • 启发:多智能体 + 迭代循环的 paradigm 可推广到其他需要"感知-推理-行动"的视觉修正任务,如视频去抖、3D 模型修复、医学图像质控

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将多智能体循环框架应用于T2I后处理校正,三Agent解耦设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 有完整消融、人类偏好评测、分类别分析,但缺少与更多baseline对比
  • 写作质量: ⭐⭐⭐⭐ 架构描述清晰,数据集构建透明,动机阐述有说服力
  • 价值: ⭐⭐⭐⭐⭐ GenBlemish-27K数据集+即插即用后处理框架,对T2I实际应用有直接帮助