跳转至

Gen-n-Val: Agentic Image Data Generation and Validation

会议: CVPR 2026
arXiv: 2506.04676
代码: GitHub
领域: 目标检测
关键词: 数据增强, 合成数据, 智能体数据生成, 长尾分布, 实例分割

一句话总结

本文提出 Gen-n-Val,一个基于智能体的合成数据生成与验证框架,通过 LLM 优化 Layer Diffusion 的 prompt 生成高质量单物体透明图像,再用 VLLM 过滤低质量样本,将无效合成数据从 50% 降至 7%,在 LVIS 稀有类实例分割上提升 7.6% mAP。

研究背景与动机

  1. 领域现状:大规模数据集(如 LVIS 1,203 类)中存在严重的长尾分布——稀有类别仅出现在不到 10 张图像中。合成数据是缓解数据稀缺的重要手段。现有方法包括 Copy-Paste 增强和基于扩散模型的生成(如 X-Paste、MosaicFusion)。
  2. 现有痛点:MosaicFusion 使用交叉注意力图生成分割掩码,但约 50% 的数据被过滤丢弃,剩余数据中仍有约 50% 存在问题:(1) 单个掩码覆盖多个物体;(2) 分割掩码不准确;(3) 类别标签错误。直接使用 Layer Diffusion 的标准 prompt 生成的数据约 44% 无效,因为单调模糊的描述导致低多样性和多余物体。
  3. 核心矛盾:高质量合成数据需要"单物体 + 精确掩码 + 正确类别 + 高多样性",但标准 prompt 无法同时满足这些要求,人工设计规则过滤效率低且遗漏多。
  4. 本文目标:设计一个自动化的智能体管线,生成高质量合成数据用于平衡长尾数据集。
  5. 切入角度:用 LLM 作为 prompt 智能体生成详细具体的 prompt(包含物体类别、风格、颜色、光照等),用 VLLM 作为验证智能体过滤不合格图像;两个智能体的系统 prompt 都通过 TextGrad 优化。
  6. 核心 idea:Layer Diffusion 天然输出 alpha 通道提供精确掩码(无需额外分割模型),LLM 优化的 prompt 确保单物体和高多样性,VLLM 验证兜底过滤漏网之鱼。

方法详解

整体框架

三阶段管线:(1) 开放词汇 Prompt 生成——LLM 智能体经 TextGrad 优化系统 prompt,生成详细的 LD prompt;(2) 前景图像生成——LD 根据优化 prompt 生成带 alpha 通道的透明单物体图像;(3) 图像过滤——VLLM 验证智能体检查生成图像质量,过滤不合格样本。最后将验证通过的前景实例随机粘贴到背景图像上。

关键设计

  1. TextGrad 优化的 LD Prompt 智能体:

    • 功能:生成能引导 Layer Diffusion 产出高质量单物体图像的详细 prompt
    • 核心思路:三个 LLM 协作:LD Prompt 智能体 \(A_{p_{LD}}\) 从系统 prompt \(p_{\text{sys}}\) 生成 LD prompt \(p_{LD}\);Prompt 评估器 \(E_{\text{prompt}}\) 评估生成 prompt 的质量并输出文本损失 \(L\);通过 TextGrad 的文本梯度下降优化 \(p_{\text{sys}}^*\)。Prompt 验证器 \(V_{\text{prompt}}\) 比较优化前后的 prompt 质量决定是否采纳。迭代直至验证器接受或达到最大迭代次数。优化后的 prompt 包含物体类别、动作、环境、风格、颜色、纹理、光照、视角等详细属性。
    • 设计动机:标准 prompt("a photo of a single ")太模糊,导致多余物体和低多样性。TextGrad 自动发现什么样的 prompt 描述能让 LD 生成最好的单物体图像
    • Layer Diffusion 前景生成:

      • 功能:生成带精确 alpha 掩码的透明前景物体图像
      • 核心思路:Layer Diffusion 将 alpha 透明通道编码到 Stable Diffusion 的潜在分布中,直接输出 RGBA 图像。alpha 通道天然提供精确的分割掩码,无需 SAM 等额外分割模型。生成后对 alpha 通道应用中值滤波去除孤立噪声像素、平滑掩码边缘。
      • 设计动机:使用交叉注意力图(MosaicFusion)或额外分割模型(X-Paste)获取掩码质量不稳定且耗时。alpha 通道是"免费"的精确掩码
    • VLLM 数据验证智能体:

      • 功能:自动过滤不合格的合成图像
      • 核心思路:VLLM(Meta-LLaMA-3.2-11B-Vision-Instruct)作为验证智能体,其系统 prompt 同样经 TextGrad 优化。验证标准编码到系统 prompt 中:(1) 单物体——图像只含一个目标类别物体;(2) 单视角——从单一角度展示;(3) 完整性——物体完整可见;(4) 纯净背景——背景空白无干扰。验证不通过的图像被丢弃。
      • 设计动机:即使优化 prompt 后仍有约 7% 无效样本,VLLM 验证作为最后一道防线确保数据质量
    • 损失函数 / 训练策略

      TextGrad 优化:使用文本梯度(LLM 生成的反馈文本)替代数值梯度来优化系统 prompt。LLM 使用 Meta-LLaMA-3.1-8B-Instruct,VLLM 使用 Meta-LLaMA-3.2-11B-Vision-Instruct。

      实验关键数据

      主实验

      LVIS 实例分割

      方法 mAP_mask mAP_mask_rare 无效数据比例
      Mask R-CNN (baseline) 21.7 9.6
      MosaicFusion 23.1 15.2 ~50%
      Gen2Det 23.6 15.3
      Gen-n-Val 25.6 17.2 (+7.6) ~7%

      COCO 实例分割(YOLO11m)

      方法 mAP mAP_rare
      YOLO11m (baseline) 10.3 6.5
      Copy-Paste 10.4 6.7
      Gen-n-Val 14.5 10.1 (+3.6)

      消融实验

      配置 无效数据比例 说明
      标准 prompt + LD ~44% 无 prompt 优化
      TextGrad 优化 prompt + LD ~7% Prompt 智能体有效
      + VLLM 验证 <1% 验证智能体进一步过滤
      MosaicFusion ~50% 基线方法

      关键发现

      • 无效数据从 50% 降至 7%:Prompt 优化是最大贡献者,VLLM 验证进一步保障质量
      • 稀有类提升最显著(+7.6 mAP):验证了合成数据在平衡长尾分布中的巨大价值
      • 可扩展性:注入更多合成数据(从 1,874 到 727,393 实例)带来持续提升(+0.9 → +7.6 mAP_rare)

      亮点与洞察

      • Layer Diffusion 的 alpha 通道作为"免费掩码"是最关键的技术选择:消除了对额外分割模型的依赖,从根源保证掩码与物体完美对齐
      • TextGrad 优化双智能体 prompt是优雅的自动化方案:将"什么是好的生成 prompt"和"什么是合格的图像"这两个问题都交给 LLM 自动迭代优化,无需人工设计规则
      • 数据质量 > 数据数量的洞察值得关注:将无效数据从 50% 降至 7% 带来的提升比简单增加数据量更显著

      局限与展望

      • 依赖 Layer Diffusion 的生成质量——对某些稀有类别(如特定食物、工具)可能生成效果不佳
      • TextGrad 优化需要多次 LLM 调用,存在一定的计算开销
      • 仅验证了物体检测和实例分割任务,未扩展到语义分割、关键点检测等
      • Copy-Paste 合成方式可能产生不自然的场景布局
      • 未来可探索在 3D 场景中进行更真实的物体放置

      相关工作与启发

      • vs MosaicFusion: MosaicFusion 用交叉注意力生成掩码,50% 无效率。Gen-n-Val 用 alpha 通道 + 智能体验证,仅 7% 无效率,且掩码质量更高
      • vs X-Paste: X-Paste 用额外分割模型获取掩码,GPU 时间是 MosaicFusion 的 4.3 倍。Gen-n-Val 的 alpha 通道方案更高效

      评分

      • 新颖性: ⭐⭐⭐⭐ Layer Diffusion + 双智能体 + TextGrad 的组合新颖且有效
      • 实验充分度: ⭐⭐⭐⭐⭐ LVIS + COCO 两个基准、多个检测器、可扩展性分析
      • 写作质量: ⭐⭐⭐⭐ 管线清晰,失败案例展示直观
      • 价值: ⭐⭐⭐⭐⭐ 为长尾数据集的数据增强提供了实用且高效的解决方案

      相关论文