跳转至

PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching

一句话总结

提出 PerTouch 框架,结合基于 Stable Diffusion + ControlNet 的语义区域级修图模型和 VLM 驱动的 Agent(含反馈重思考机制和场景感知记忆),实现精细化、个性化的图像修图。

研究背景与动机

领域现状:深度学习图像修图从 FCN 端到端方案发展到 3D-LUT、曲线操作等可控方法,再到 DiffRetouch 等基于扩散先验的方法。近期基于 VLM 的 Agent 系统(如 RestoreAgent、PhotoArtAgent)开始用于低级视觉任务。

核心痛点:现有方法存在三重限制——(1) 缺乏主观性建模:确定性架构对给定输入只产生固定结果,无法体现用户偏好多样性;(2) 缺乏区域级控制:引入外部分割图的方案对分割质量敏感且易产生不自然伪影;(3) 缺乏用户交互和个性化:无法解读模糊指令(如"稍微亮一点"),不记忆长期编辑偏好。

核心矛盾:语义级区域修图需要精确的空间控制,但过度依赖分割信息会牺牲全局美学一致性;个性化需要理解用户意图,但用户指令通常模糊且主观。

切入角度:使用扩散先验学习高质量修图分布,通过参数图注入实现语义区域控制;引入语义替换和参数扰动两个互补的训练机制,平衡区域感知与全局美学;设计 VLM Agent 配合场景记忆和反馈重思考机制实现个性化。

方法详解

整体框架

PerTouch 包含两大部分:(1) 基于 Stable Diffusion + ControlNet 的语义区域修图模型,以多通道参数图为控制信号;(2) VLM 驱动的个性化 Agent,负责将自然语言指令转换为参数图编辑操作。

关键设计

  1. 语义区域修图模型
  2. SAM 全景分割获取语义区域,计算四个属性分数(色彩丰富度、对比度、色温、亮度)
  3. 属性分数融入分割图形成多通道参数图,通过 ControlNet 注入 Stable Diffusion
  4. 控制范围 [-1, 1],调整特定区域参数值即可输出对应修图风格,同时维持全局美学
  5. 框架可扩展:只要能计算区域级评分,新属性即可纳入控制

  6. 语义替换模块(Semantic Replacement)

  7. 训练时随机选择样本,按语义区域面积为概率权重选择区域
  8. 将选中区域替换为另一样本中属性最不同的区域,制造人工差异
  9. 目的:迫使模型学习区域边界感知和细粒度修图能力
  10. 解决了直接注入参数图时模型退化为全局修图的问题

  11. 参数扰动机制(Parameter Perturbation)

  12. 对参数图施加多维扰动(通道偏移、高斯模糊等)
  13. 弱化模型对分割边界的过度敏感,让扩散先验在全局美学中发挥更大作用
  14. 与语义替换互补:后者增强区域感知,前者防止过度依赖分割信息

  15. VLM Agent 的强弱指令处理

  16. 弱指令(如"优化这张图"):以各属性中值为默认,结合场景记忆中的历史偏好自动生成参数图
  17. 强指令(如"显著提高鹰的亮度"):VLM 目标检测定位区域 + SAM 分割 + 反馈重思考精确调整
  18. 两种模式可在同一张图上叠加:弱指令处理整体,强指令覆盖特定区域

  19. 反馈驱动重思考(Feedback-driven Rethinking)

  20. 初始估计控制值 c0 生成首轮结果,将结果与原图和指令发回 Agent 评估是否满足语义意图
  21. 不满足则修订控制值形成闭环,通常 2-3 轮收敛到用户满意结果
  22. 建立了语言级调整线索、控制值和感知视觉结果之间的学习映射

  23. 场景感知记忆(Scene-aware Memory)

  24. 每次编辑后提取场景语义与确认参数存入记忆库
  25. 新图编辑时从记忆库估计条件偏好分布,实现场景条件化的个性化

损失函数/训练策略

基础模型训练使用 Stable Diffusion 标准去噪损失。数据集为 MIT-Adobe FiveK(5000 张 RAW 图,5 个专家重修版本 A/B/C/D/E)。语义替换和参数扰动在训练时应用。Agent 部分为推理时框架,无需额外训练。

实验关键数据

主实验表格(MIT-Adobe FiveK)

方法 Expert A PSNR Expert B PSNR Expert C PSNR Expert D PSNR Expert E PSNR
PIENet 21.52 25.91 25.19 22.90 24.12
TSFlow 20.61 25.25 25.62 22.37 23.54
StarEnhancer 20.71 25.73 25.52 23.39 24.46
DiffRetouch 24.51 26.15 25.91 24.51 24.74
PerTouch 25.14 27.47 26.75 25.97 25.66

消融实验表格

组件变化 效果
无语义替换 模型退化为全局修图,区域感知能力丧失
无参数扰动 出现分割边界伪影,全局美学不一致
两者均移除 性能退化至基线 DiffRetouch 水平
无场景记忆 同一模糊指令无法区分不同用户偏好
无反馈重思考 首轮参数估计经常不匹配用户意图

关键发现

  • PerTouch 在 5 个专家版本中 4 个 PSNR 最优,Expert A 相比 DiffRetouch 提升 0.63dB
  • 语义替换和参数扰动的互补效应是关键:单独使用各有不足,组合才能同时实现区域控制和全局美学
  • 反馈重思考通常 2-3 轮即可收敛到用户满意的结果,显著优于单轮估计
  • 场景记忆在 5-10 次用户交互后偏好估计明显改善,体现了越用越好的特性

亮点与洞察

  • 语义替换 + 参数扰动的对立统一设计优雅:前者强化区域感知,后者弱化过度依赖,两者张力产生理想平衡点
  • 强弱指令的统一处理降低了用户门槛:非专业用户用弱指令快速编辑,专业用户精细控制
  • 场景感知记忆实现了真正的个性化——不是一刀切的风格偏好,而是根据不同场景自适应选择偏好参数

局限性/可改进方向

  • 当前仅支持四个可控属性(色彩、对比度、色温、亮度),扩展新属性需要区域级评分函数
  • SAM 的分割质量直接影响结果,复杂场景中分割错误会传播至修图结果
  • 反馈重思考需要多轮扩散推理,计算成本较高,不适合实时编辑场景
  • 场景记忆的冷启动问题——新用户初期缺乏历史数据,个性化效果有限

相关工作与启发

方面 DiffRetouch PerTouch
控制粒度 全局属性控制 语义区域级控制
交互方式 手动参数调整 VLM Agent 自然语言
个性化 场景记忆 + 历史偏好
边界处理 依赖外部分割 语义替换+参数扰动软化

vs PhotoArtAgent/MonetGPT 等 Agent 修图系统:依赖固定工具调用管道缺乏个性化适配,PerTouch 通过场景记忆实现了用户偏好的持续学习。

评分

维度 评分 理由
新颖性 ⭐⭐⭐⭐ 语义替换+扰动+场景记忆的组合设计有新意,VLM Agent 修图方向前沿
技术深度 ⭐⭐⭐⭐ 扩散模型区域控制训练策略设计精细,反馈重思考机制形式化清晰
实验完整度 ⭐⭐⭐⭐ 5 个专家版本全面评估 + 组件消融 + 定性对比
实用价值 ⭐⭐⭐⭐⭐ 面向大众图像编辑需求,代码已开源,场景记忆使其越用越好