Gen-n-Val: Agentic Image Data Generation and Validation¶
会议: CVPR 2026
arXiv: 2506.04676
代码: GitHub
领域: 目标检测
关键词: 数据增强, 合成数据, 智能体数据生成, 长尾分布, 实例分割
一句话总结¶
本文提出 Gen-n-Val,一个基于智能体的合成数据生成与验证框架,通过 LLM 优化 Layer Diffusion 的 prompt 生成高质量单物体透明图像,再用 VLLM 过滤低质量样本,将无效合成数据从 50% 降至 7%,在 LVIS 稀有类实例分割上提升 7.6% mAP。
研究背景与动机¶
- 领域现状:大规模数据集(如 LVIS 1,203 类)中存在严重的长尾分布——稀有类别仅出现在不到 10 张图像中。合成数据是缓解数据稀缺的重要手段。现有方法包括 Copy-Paste 增强和基于扩散模型的生成(如 X-Paste、MosaicFusion)。
- 现有痛点:MosaicFusion 使用交叉注意力图生成分割掩码,但约 50% 的数据被过滤丢弃,剩余数据中仍有约 50% 存在问题:(1) 单个掩码覆盖多个物体;(2) 分割掩码不准确;(3) 类别标签错误。直接使用 Layer Diffusion 的标准 prompt 生成的数据约 44% 无效,因为单调模糊的描述导致低多样性和多余物体。
- 核心矛盾:高质量合成数据需要"单物体 + 精确掩码 + 正确类别 + 高多样性",但标准 prompt 无法同时满足这些要求,人工设计规则过滤效率低且遗漏多。
- 本文目标:设计一个自动化的智能体管线,生成高质量合成数据用于平衡长尾数据集。
- 切入角度:用 LLM 作为 prompt 智能体生成详细具体的 prompt(包含物体类别、风格、颜色、光照等),用 VLLM 作为验证智能体过滤不合格图像;两个智能体的系统 prompt 都通过 TextGrad 优化。
- 核心 idea:Layer Diffusion 天然输出 alpha 通道提供精确掩码(无需额外分割模型),LLM 优化的 prompt 确保单物体和高多样性,VLLM 验证兜底过滤漏网之鱼。
方法详解¶
整体框架¶
三阶段管线:(1) 开放词汇 Prompt 生成——LLM 智能体经 TextGrad 优化系统 prompt,生成详细的 LD prompt;(2) 前景图像生成——LD 根据优化 prompt 生成带 alpha 通道的透明单物体图像;(3) 图像过滤——VLLM 验证智能体检查生成图像质量,过滤不合格样本。最后将验证通过的前景实例随机粘贴到背景图像上。
关键设计¶
-
TextGrad 优化的 LD Prompt 智能体:
- 功能:生成能引导 Layer Diffusion 产出高质量单物体图像的详细 prompt
- 核心思路:三个 LLM 协作:LD Prompt 智能体 \(A_{p_{LD}}\) 从系统 prompt \(p_{\text{sys}}\) 生成 LD prompt \(p_{LD}\);Prompt 评估器 \(E_{\text{prompt}}\) 评估生成 prompt 的质量并输出文本损失 \(L\);通过 TextGrad 的文本梯度下降优化 \(p_{\text{sys}}^*\)。Prompt 验证器 \(V_{\text{prompt}}\) 比较优化前后的 prompt 质量决定是否采纳。迭代直至验证器接受或达到最大迭代次数。优化后的 prompt 包含物体类别、动作、环境、风格、颜色、纹理、光照、视角等详细属性。
- 设计动机:标准 prompt("a photo of a single
-
Layer Diffusion 前景生成:
- 功能:生成带精确 alpha 掩码的透明前景物体图像
- 核心思路:Layer Diffusion 将 alpha 透明通道编码到 Stable Diffusion 的潜在分布中,直接输出 RGBA 图像。alpha 通道天然提供精确的分割掩码,无需 SAM 等额外分割模型。生成后对 alpha 通道应用中值滤波去除孤立噪声像素、平滑掩码边缘。
- 设计动机:使用交叉注意力图(MosaicFusion)或额外分割模型(X-Paste)获取掩码质量不稳定且耗时。alpha 通道是"免费"的精确掩码
-
VLLM 数据验证智能体:
- 功能:自动过滤不合格的合成图像
- 核心思路:VLLM(Meta-LLaMA-3.2-11B-Vision-Instruct)作为验证智能体,其系统 prompt 同样经 TextGrad 优化。验证标准编码到系统 prompt 中:(1) 单物体——图像只含一个目标类别物体;(2) 单视角——从单一角度展示;(3) 完整性——物体完整可见;(4) 纯净背景——背景空白无干扰。验证不通过的图像被丢弃。
- 设计动机:即使优化 prompt 后仍有约 7% 无效样本,VLLM 验证作为最后一道防线确保数据质量
损失函数 / 训练策略¶
TextGrad 优化:使用文本梯度(LLM 生成的反馈文本)替代数值梯度来优化系统 prompt。LLM 使用 Meta-LLaMA-3.1-8B-Instruct,VLLM 使用 Meta-LLaMA-3.2-11B-Vision-Instruct。
实验关键数据¶
主实验¶
LVIS 实例分割:
| 方法 | mAP_mask | mAP_mask_rare | 无效数据比例 |
|---|---|---|---|
| Mask R-CNN (baseline) | 21.7 | 9.6 | — |
| MosaicFusion | 23.1 | 15.2 | ~50% |
| Gen2Det | 23.6 | 15.3 | — |
| Gen-n-Val | 25.6 | 17.2 (+7.6) | ~7% |
COCO 实例分割(YOLO11m):
| 方法 | mAP | mAP_rare |
|---|---|---|
| YOLO11m (baseline) | 10.3 | 6.5 |
| Copy-Paste | 10.4 | 6.7 |
| Gen-n-Val | 14.5 | 10.1 (+3.6) |
消融实验¶
| 配置 | 无效数据比例 | 说明 |
|---|---|---|
| 标准 prompt + LD | ~44% | 无 prompt 优化 |
| TextGrad 优化 prompt + LD | ~7% | Prompt 智能体有效 |
| + VLLM 验证 | <1% | 验证智能体进一步过滤 |
| MosaicFusion | ~50% | 基线方法 |
关键发现¶
- 无效数据从 50% 降至 7%:Prompt 优化是最大贡献者,VLLM 验证进一步保障质量
- 稀有类提升最显著(+7.6 mAP):验证了合成数据在平衡长尾分布中的巨大价值
- 可扩展性:注入更多合成数据(从 1,874 到 727,393 实例)带来持续提升(+0.9 → +7.6 mAP_rare)
亮点与洞察¶
- Layer Diffusion 的 alpha 通道作为"免费掩码"是最关键的技术选择:消除了对额外分割模型的依赖,从根源保证掩码与物体完美对齐
- TextGrad 优化双智能体 prompt是优雅的自动化方案:将"什么是好的生成 prompt"和"什么是合格的图像"这两个问题都交给 LLM 自动迭代优化,无需人工设计规则
- 数据质量 > 数据数量的洞察值得关注:将无效数据从 50% 降至 7% 带来的提升比简单增加数据量更显著
局限与展望¶
- 依赖 Layer Diffusion 的生成质量——对某些稀有类别(如特定食物、工具)可能生成效果不佳
- TextGrad 优化需要多次 LLM 调用,存在一定的计算开销
- 仅验证了物体检测和实例分割任务,未扩展到语义分割、关键点检测等
- Copy-Paste 合成方式可能产生不自然的场景布局
- 未来可探索在 3D 场景中进行更真实的物体放置
相关工作与启发¶
- vs MosaicFusion: MosaicFusion 用交叉注意力生成掩码,50% 无效率。Gen-n-Val 用 alpha 通道 + 智能体验证,仅 7% 无效率,且掩码质量更高
- vs X-Paste: X-Paste 用额外分割模型获取掩码,GPU 时间是 MosaicFusion 的 4.3 倍。Gen-n-Val 的 alpha 通道方案更高效
评分¶
- 新颖性: ⭐⭐⭐⭐ Layer Diffusion + 双智能体 + TextGrad 的组合新颖且有效
- 实验充分度: ⭐⭐⭐⭐⭐ LVIS + COCO 两个基准、多个检测器、可扩展性分析
- 写作质量: ⭐⭐⭐⭐ 管线清晰,失败案例展示直观
- 价值: ⭐⭐⭐⭐⭐ 为长尾数据集的数据增强提供了实用且高效的解决方案
相关论文¶
- [ACL 2025] MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation
- [AAAI 2026] AgentSense: Virtual Sensor Data Generation Using LLM Agents in Simulated Home Environments
- [CVPR 2026] SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation
- [AAAI 2026] A2Flow: Automating Agentic Workflow Generation via Self-Adaptive Abstraction Operators
- [ICCV 2025] Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions