Agentic Retoucher for Text-To-Image Generation¶

会议: CVPR 2026
arXiv: 2601.02046
代码: 待确认
领域: 图像生成
关键词: 文本到图像生成, 后处理校正, 多智能体系统, 失真检测, 图像修复

一句话总结¶

将 T2I 扩散模型输出的局部失真（手指畸变、面部异常、文字错误等）校正问题建模为感知-推理-行动的多智能体循环系统 Agentic Retoucher，通过 Perception Agent 的上下文感知失真显著性图定位缺陷、Reasoning Agent 的结构化推理诊断失真类型、Action Agent 的工具选择执行修复，并配合 GenBlemish-27K 数据集实现端到端的迭代式自动修正。

研究背景与动机¶

当前 T2I 扩散模型（如 SDXL、DALL-E 3）的生成质量持续提升，但在局部细节上仍普遍存在结构性失真问题：

手部畸变：多余/缺失手指、关节错位，占比高达 46.8%
面部异常：五官比例失调、不对称
文字渲染错误：字母缺失、笔画扭曲
物理不合理：透视错误、遮挡关系矛盾

现有的后处理方案主要依赖 VLM（如 GPT-4V）做 critic，但存在两个关键瓶颈：

弱空间定位：VLM 擅长整体语义判断，但难以精确定位像素级失真区域，给出的描述往往是模糊的自然语言而非可操作的空间坐标
幻觉问题：VLM 可能将正常区域误判为失真，或对真实缺陷视而不见，导致不必要的修改或遗漏关键问题

Agentic Retoucher 的核心洞察是：与其依赖单个通用 VLM 完成定位+判断+修复全流程，不如将问题分解为感知-推理-行动三个专门化智能体，各司其职并通过迭代循环实现渐进式校正。

方法详解¶

整体框架¶

Agentic Retoucher 采用三阶段循环架构：

Perception Agent（感知）：检测并定位图像中的失真区域，输出二值化 mask 候选集 $\{M_i\}$
Reasoning Agent（推理）：对每个失真区域进行类型诊断和自然语言描述，输出 $\{D_i\}$
Action Agent（行动）：根据 mask 和描述选择合适的修复工具执行 inpainting

三个 Agent 通过迭代循环协作：修复后的图像重新送入 Perception Agent 验证，若显著性分数 $S > \tau$ 则继续循环，否则终止。

关键设计¶

1. Perception Agent —— 上下文感知失真显著性检测

编码器：ViT 提取视觉特征 + T5 编码文本 prompt 的语义特征，双流融合
注意力精炼（Attention Refinement）：跨模态注意力将文本语义注入视觉特征，使模型理解"什么地方应该是什么样"从而更准确地判断偏差
输出：逐像素的 context-aware distortion saliency map $S \in [0, 1]^{H \times W}$
训练损失： $$\mathcal{L}_{\text{percept}} = \alpha \cdot \text{MSE}(S, S_{\text{gt}}) + (1 - \alpha) \cdot \text{KLD}(S \| S_{\text{human}})$$ 其中 $S_{\text{human}}$ 为人类注视分布（eye-tracking 数据），KLD 项使模型的失真判断与人类视觉关注对齐
后处理：对 $S$ 进行二值化（阈值 $\theta$）+ 形态学膨胀生成 mask 候选集 $\{M_i\}$，膨胀确保修复区域覆盖失真边界

2. Reasoning Agent —— 结构化失真诊断

基座：基于 VLM 进行 SFT，采用 LoRA 高效微调
结构化初始化：将失真分类体系（12 类 artifact）编码为结构化 prompt，引导模型输出标准化诊断结果
GRPO 人类偏好对齐：Group Relative Policy Optimization，使用人类标注的偏好对比数据进一步对齐——使诊断描述更符合人类对失真严重程度和类型的判断
输出：每个 mask 区域对应的失真类型标签 + 自然语言描述 $\{D_i\} = \{(\text{type}_i, \text{desc}_i)\}$

3. Action Agent —— 工具选择与修复执行

工具库（Tool Library）：
Mask-guided inpainting：基于 mask 的局部重绘，适用于结构明确的失真（如多余手指）
Instruction-driven inpainting：基于自然语言指令的修复，适用于需要语义理解的失真（如表情不自然）
选择策略：根据失真类型 $\text{type}_i$ 自动路由到最合适的工具
迭代验证：修复后的图像重新经 Perception Agent 评估，若仍存在显著失真则进入下一轮循环

损失函数 / 训练策略¶

Perception Agent 训练： - 混合损失：MSE 保证像素级精度，KLD 保证与人类注视分布一致 - $\alpha = 0.7$（消融实验确定）

Reasoning Agent 训练： - 第一阶段：SFT + LoRA 在 GenBlemish-27K 标注数据上微调 - 第二阶段：GRPO 偏好对齐，使用人类 A/B 对比数据优化

GenBlemish-27K 数据集构建： - 6K 张 T2I 生成图像，人工标注 27K 个失真区域 - 12 类 artifact 分布：hand（46.8%）、face（15.7%）、text（8.3%）、body（7.2%）等 - 每个标注包含：bounding box、pixel-level mask、失真类型、严重程度、自然语言描述

实验关键数据¶

主实验¶

方法	Plausibility↑	Aesthetics↑	Human Pref. (%)↑
原始 T2I 输出	44.21	5.32	—
VLM-Critic (GPT-4V)	45.03	5.41	61.5
HiveMind	45.67	5.48	68.3
Agentic Retoucher	47.10	5.63	83.2

Agentic Retoucher 在 Plausibility 上从 44.21 提升至 47.10（+2.89），83.2% 的人类评审者偏好修复后的结果。

消融实验¶

配置	Plausibility↑	Human Pref.↑
仅 Perception（无 Reasoning）	45.38	69.1%
仅 Perception + Reasoning（无迭代）	46.22	76.4%
无 KLD 对齐	46.01	73.8%
无 GRPO 偏好对齐	46.45	78.1%
完整 Agentic Retoucher	47.10	83.2%

关键发现¶

迭代循环至关重要：单次修复 vs 迭代修复，人类偏好从 76.4% 提升到 83.2%，说明部分失真需要多轮渐进校正
KLD 人类注视对齐有效：去除后 Plausibility 下降 1.09，说明让感知模型与人类视觉关注一致能显著提升定位精度
GRPO 偏好对齐贡献稳定：去除后偏好率从 83.2% 降至 78.1%，验证人类偏好信号对推理质量的提升
分类别分析：手部失真修复提升最显著（+3.8 Plausibility），面部次之（+2.1），文字最难（+0.9）

亮点与洞察¶

问题解耦精妙：将"发现问题-诊断问题-修复问题"拆分为三个专门化智能体，比用通用 VLM 做所有事更可靠——符合软件工程的关注点分离原则
人类先验的两层注入：Perception Agent 用 KLD 对齐人类注视分布（低层感知），Reasoning Agent 用 GRPO 对齐人类偏好（高层语义），形成互补
GenBlemish-27K 数据集价值：首个大规模 T2I 失真标注数据集，12 类 artifact 的细粒度标注为后续研究提供基准
迭代循环的实用性：类比人类修图的"发现→修改→检查→再修改"流程，系统设计贴合实际应用需求

局限性 / 可改进方向¶

依赖预训练 inpainting 模型的修复质量上限；若基础修复工具本身不够强，Agent 的决策再好也无法产出优良结果
迭代循环的终止条件（阈值 $\tau$）需要手动设定，对不同失真类型可能需要自适应调整
手部失真占比 46.8%，数据集存在类别不平衡；对少数类（如透视错误）的修复效果可能不足
文字类失真修复效果有限（+0.9），可能需要引入专门的文字渲染模型
推理开销：三个 Agent 串行 + 多轮迭代，整体延迟较高，实时应用受限

评分¶

新颖性: ⭐⭐⭐⭐ 首次将多智能体循环框架应用于T2I后处理校正，三Agent解耦设计新颖
实验充分度: ⭐⭐⭐⭐ 有完整消融、人类偏好评测、分类别分析，但缺少与更多baseline对比
写作质量: ⭐⭐⭐⭐ 架构描述清晰，数据集构建透明，动机阐述有说服力
价值: ⭐⭐⭐⭐⭐ GenBlemish-27K数据集+即插即用后处理框架，对T2I实际应用有直接帮助