PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching¶
一句话总结¶
提出 PerTouch 框架,结合基于 Stable Diffusion + ControlNet 的语义区域级修图模型和 VLM 驱动的 Agent(含反馈重思考机制和场景感知记忆),实现精细化、个性化的图像修图。
研究背景与动机¶
领域现状:深度学习图像修图从 FCN 端到端方案发展到 3D-LUT、曲线操作等可控方法,再到 DiffRetouch 等基于扩散先验的方法。近期基于 VLM 的 Agent 系统(如 RestoreAgent、PhotoArtAgent)开始用于低级视觉任务。
核心痛点:现有方法存在三重限制——(1) 缺乏主观性建模:确定性架构对给定输入只产生固定结果,无法体现用户偏好多样性;(2) 缺乏区域级控制:引入外部分割图的方案对分割质量敏感且易产生不自然伪影;(3) 缺乏用户交互和个性化:无法解读模糊指令(如"稍微亮一点"),不记忆长期编辑偏好。
核心矛盾:语义级区域修图需要精确的空间控制,但过度依赖分割信息会牺牲全局美学一致性;个性化需要理解用户意图,但用户指令通常模糊且主观。
切入角度:使用扩散先验学习高质量修图分布,通过参数图注入实现语义区域控制;引入语义替换和参数扰动两个互补的训练机制,平衡区域感知与全局美学;设计 VLM Agent 配合场景记忆和反馈重思考机制实现个性化。
方法详解¶
整体框架¶
PerTouch 包含两大部分:(1) 基于 Stable Diffusion + ControlNet 的语义区域修图模型,以多通道参数图为控制信号;(2) VLM 驱动的个性化 Agent,负责将自然语言指令转换为参数图编辑操作。
关键设计¶
- 语义区域修图模型
- SAM 全景分割获取语义区域,计算四个属性分数(色彩丰富度、对比度、色温、亮度)
- 属性分数融入分割图形成多通道参数图,通过 ControlNet 注入 Stable Diffusion
- 控制范围 [-1, 1],调整特定区域参数值即可输出对应修图风格,同时维持全局美学
-
框架可扩展:只要能计算区域级评分,新属性即可纳入控制
-
语义替换模块(Semantic Replacement)
- 训练时随机选择样本,按语义区域面积为概率权重选择区域
- 将选中区域替换为另一样本中属性最不同的区域,制造人工差异
- 目的:迫使模型学习区域边界感知和细粒度修图能力
-
解决了直接注入参数图时模型退化为全局修图的问题
-
参数扰动机制(Parameter Perturbation)
- 对参数图施加多维扰动(通道偏移、高斯模糊等)
- 弱化模型对分割边界的过度敏感,让扩散先验在全局美学中发挥更大作用
-
与语义替换互补:后者增强区域感知,前者防止过度依赖分割信息
-
VLM Agent 的强弱指令处理
- 弱指令(如"优化这张图"):以各属性中值为默认,结合场景记忆中的历史偏好自动生成参数图
- 强指令(如"显著提高鹰的亮度"):VLM 目标检测定位区域 + SAM 分割 + 反馈重思考精确调整
-
两种模式可在同一张图上叠加:弱指令处理整体,强指令覆盖特定区域
-
反馈驱动重思考(Feedback-driven Rethinking)
- 初始估计控制值 c0 生成首轮结果,将结果与原图和指令发回 Agent 评估是否满足语义意图
- 不满足则修订控制值形成闭环,通常 2-3 轮收敛到用户满意结果
-
建立了语言级调整线索、控制值和感知视觉结果之间的学习映射
-
场景感知记忆(Scene-aware Memory)
- 每次编辑后提取场景语义与确认参数存入记忆库
- 新图编辑时从记忆库估计条件偏好分布,实现场景条件化的个性化
损失函数/训练策略¶
基础模型训练使用 Stable Diffusion 标准去噪损失。数据集为 MIT-Adobe FiveK(5000 张 RAW 图,5 个专家重修版本 A/B/C/D/E)。语义替换和参数扰动在训练时应用。Agent 部分为推理时框架,无需额外训练。
实验关键数据¶
主实验表格(MIT-Adobe FiveK)¶
| 方法 | Expert A PSNR | Expert B PSNR | Expert C PSNR | Expert D PSNR | Expert E PSNR |
|---|---|---|---|---|---|
| PIENet | 21.52 | 25.91 | 25.19 | 22.90 | 24.12 |
| TSFlow | 20.61 | 25.25 | 25.62 | 22.37 | 23.54 |
| StarEnhancer | 20.71 | 25.73 | 25.52 | 23.39 | 24.46 |
| DiffRetouch | 24.51 | 26.15 | 25.91 | 24.51 | 24.74 |
| PerTouch | 25.14 | 27.47 | 26.75 | 25.97 | 25.66 |
消融实验表格¶
| 组件变化 | 效果 |
|---|---|
| 无语义替换 | 模型退化为全局修图,区域感知能力丧失 |
| 无参数扰动 | 出现分割边界伪影,全局美学不一致 |
| 两者均移除 | 性能退化至基线 DiffRetouch 水平 |
| 无场景记忆 | 同一模糊指令无法区分不同用户偏好 |
| 无反馈重思考 | 首轮参数估计经常不匹配用户意图 |
关键发现¶
- PerTouch 在 5 个专家版本中 4 个 PSNR 最优,Expert A 相比 DiffRetouch 提升 0.63dB
- 语义替换和参数扰动的互补效应是关键:单独使用各有不足,组合才能同时实现区域控制和全局美学
- 反馈重思考通常 2-3 轮即可收敛到用户满意的结果,显著优于单轮估计
- 场景记忆在 5-10 次用户交互后偏好估计明显改善,体现了越用越好的特性
亮点与洞察¶
- 语义替换 + 参数扰动的对立统一设计优雅:前者强化区域感知,后者弱化过度依赖,两者张力产生理想平衡点
- 强弱指令的统一处理降低了用户门槛:非专业用户用弱指令快速编辑,专业用户精细控制
- 场景感知记忆实现了真正的个性化——不是一刀切的风格偏好,而是根据不同场景自适应选择偏好参数
局限性/可改进方向¶
- 当前仅支持四个可控属性(色彩、对比度、色温、亮度),扩展新属性需要区域级评分函数
- SAM 的分割质量直接影响结果,复杂场景中分割错误会传播至修图结果
- 反馈重思考需要多轮扩散推理,计算成本较高,不适合实时编辑场景
- 场景记忆的冷启动问题——新用户初期缺乏历史数据,个性化效果有限
相关工作与启发¶
| 方面 | DiffRetouch | PerTouch |
|---|---|---|
| 控制粒度 | 全局属性控制 | 语义区域级控制 |
| 交互方式 | 手动参数调整 | VLM Agent 自然语言 |
| 个性化 | 无 | 场景记忆 + 历史偏好 |
| 边界处理 | 依赖外部分割 | 语义替换+参数扰动软化 |
vs PhotoArtAgent/MonetGPT 等 Agent 修图系统:依赖固定工具调用管道缺乏个性化适配,PerTouch 通过场景记忆实现了用户偏好的持续学习。
评分¶
| 维度 | 评分 | 理由 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 语义替换+扰动+场景记忆的组合设计有新意,VLM Agent 修图方向前沿 |
| 技术深度 | ⭐⭐⭐⭐ | 扩散模型区域控制训练策略设计精细,反馈重思考机制形式化清晰 |
| 实验完整度 | ⭐⭐⭐⭐ | 5 个专家版本全面评估 + 组件消融 + 定性对比 |
| 实用价值 | ⭐⭐⭐⭐⭐ | 面向大众图像编辑需求,代码已开源,场景记忆使其越用越好 |