Gen-n-Val: Agentic Image Data Generation and Validation¶

会议: CVPR 2026
arXiv: 2506.04676
代码: GitHub
领域: 目标检测
关键词: 数据增强, 合成数据, 智能体数据生成, 长尾分布, 实例分割

一句话总结¶

本文提出 Gen-n-Val，一个基于智能体的合成数据生成与验证框架，通过 LLM 优化 Layer Diffusion 的 prompt 生成高质量单物体透明图像，再用 VLLM 过滤低质量样本，将无效合成数据从 50% 降至 7%，在 LVIS 稀有类实例分割上提升 7.6% mAP。

研究背景与动机¶

领域现状：大规模数据集（如 LVIS 1,203 类）中存在严重的长尾分布——稀有类别仅出现在不到 10 张图像中。合成数据是缓解数据稀缺的重要手段。现有方法包括 Copy-Paste 增强和基于扩散模型的生成（如 X-Paste、MosaicFusion）。
现有痛点：MosaicFusion 使用交叉注意力图生成分割掩码，但约 50% 的数据被过滤丢弃，剩余数据中仍有约 50% 存在问题：(1) 单个掩码覆盖多个物体；(2) 分割掩码不准确；(3) 类别标签错误。直接使用 Layer Diffusion 的标准 prompt 生成的数据约 44% 无效，因为单调模糊的描述导致低多样性和多余物体。
核心矛盾：高质量合成数据需要"单物体 + 精确掩码 + 正确类别 + 高多样性"，但标准 prompt 无法同时满足这些要求，人工设计规则过滤效率低且遗漏多。
本文目标：设计一个自动化的智能体管线，生成高质量合成数据用于平衡长尾数据集。
切入角度：用 LLM 作为 prompt 智能体生成详细具体的 prompt（包含物体类别、风格、颜色、光照等），用 VLLM 作为验证智能体过滤不合格图像；两个智能体的系统 prompt 都通过 TextGrad 优化。
核心 idea：Layer Diffusion 天然输出 alpha 通道提供精确掩码（无需额外分割模型），LLM 优化的 prompt 确保单物体和高多样性，VLLM 验证兜底过滤漏网之鱼。

方法详解¶

整体框架¶

三阶段管线：(1) 开放词汇 Prompt 生成——LLM 智能体经 TextGrad 优化系统 prompt，生成详细的 LD prompt；(2) 前景图像生成——LD 根据优化 prompt 生成带 alpha 通道的透明单物体图像；(3) 图像过滤——VLLM 验证智能体检查生成图像质量，过滤不合格样本。最后将验证通过的前景实例随机粘贴到背景图像上。

关键设计¶

TextGrad 优化的 LD Prompt 智能体:

功能：生成能引导 Layer Diffusion 产出高质量单物体图像的详细 prompt
核心思路：三个 LLM 协作：LD Prompt 智能体 \(A_{p_{LD}}\) 从系统 prompt \(p_{\text{sys}}\) 生成 LD prompt \(p_{LD}\)；Prompt 评估器 \(E_{\text{prompt}}\) 评估生成 prompt 的质量并输出文本损失 \(L\)；通过 TextGrad 的文本梯度下降优化 \(p_{\text{sys}}^*\)。Prompt 验证器 \(V_{\text{prompt}}\) 比较优化前后的 prompt 质量决定是否采纳。迭代直至验证器接受或达到最大迭代次数。优化后的 prompt 包含物体类别、动作、环境、风格、颜色、纹理、光照、视角等详细属性。

设计动机：标准 prompt（"a photo of a single

方法	mAP_mask	mAP_mask_rare	无效数据比例
Mask R-CNN (baseline)	21.7	9.6	—
MosaicFusion	23.1	15.2	~50%
Gen2Det	23.6	15.3	—
Gen-n-Val	25.6	17.2 (+7.6)	~7%

方法	mAP	mAP_rare
YOLO11m (baseline)	10.3	6.5
Copy-Paste	10.4	6.7
Gen-n-Val	14.5	10.1 (+3.6)

配置	无效数据比例	说明
标准 prompt + LD	~44%	无 prompt 优化
TextGrad 优化 prompt + LD	~7%	Prompt 智能体有效
+ VLLM 验证	<1%	验证智能体进一步过滤
MosaicFusion	~50%	基线方法

Gen-n-Val: Agentic Image Data Generation and Validation¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶