ReCon: Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection¶

会议: NeurIPS 2025
arXiv: 2510.15783
代码: https://github.com/haoweiz23/ReCon
领域: 目标检测 / 数据增强
关键词: 数据增强, 目标检测, 扩散模型, 区域控制, ControlNet

一句话总结¶

ReCon 提出无需额外训练的区域可控数据增强框架，通过区域引导校正（RGR）和区域对齐交叉注意力（RACA）增强现有结构可控生成模型的目标检测数据质量，在 COCO 上实现 35.5 mAP（超过需 fine-tune 的 GeoDiffusion）。

研究背景与动机¶

目标检测模型高度依赖大规模标注数据集，但标注成本极高（如 Cityscapes 单张图标注需 60 分钟）。生成模型作为数据增强工具日益受到关注，但面临两个核心问题：

现有痛点：

内容-位置不匹配：结构可控生成模型（如 ControlNet）在复杂布局下容易生成错误数量的目标或在错误位置生成目标对象

语义泄漏：text-to-image 生成中，不同类别的文本特征互相干扰，导致生成区域的语义与标注不一致

方法复杂度高：现有方法要么需要额外的后处理过滤（如 CLIP score 过滤），要么需要大规模数据集上的 fine-tuning（如 GeoDiffusion、DetDiffusion），在数据稀缺场景下不适用

核心idea：在扩散模型的采样过程中直接集成区域级别的校正和对齐机制，无需任何额外训练，即可显著提升生成数据的质量和可训练性。

方法详解¶

整体框架¶

ReCon 建立在现有结构控制模型（如 ControlNet + Canny edge）之上，在扩散采样的每一步中嵌入两个模块： 1. 区域引导校正（RGR）：用感知模型检测中间结果，校正误生成区域 2. 区域对齐交叉注意力（RACA）：将区域特征与对应文本特征独立交互，防止语义泄漏

关键设计¶

区域引导校正（Region-Guided Rectification, RGR）：利用 Grounded-SAM 模型在采样过程中检测中间生成结果。具体地，利用缓存加速采样技术在 N=5 步后获得一个干净的预测 $\mathbf{z}_{0|t-N}$，用 Grounded-SAM 检测目标。通过 IoU 匹配检测结果与真实标注，识别假阳性和假阴性区域，构建二值掩码 M。对误生成区域注入原始图像的加噪版本： $$\mathbf{z}'_t = \mathbf{M} \odot \mathbf{z}_t^{\text{orig}} + (1-\mathbf{M}) \odot \mathbf{z}_t$$ 在采样的 4 个时间节点（0.75T、0.50T、0.25T、0.10T）分别校正空间布局、语义内容和生成质量。利用扩散采样的可覆盖性（overridability），区域替换不会破坏整体推理过程。
区域对齐交叉注意力（Region-Aligned Cross-Attention, RACA）：针对语义泄漏问题，为每个目标类别独立编码文本特征（格式 "[CLASS]"），以及一个全局场景描述。在 U-Net 的交叉注意力中，从潜在特征 $\mathbf{z}_t^{in}$ 中裁剪出各区域特征，与对应类别的文本特征独立执行交叉注意力，然后拼接回 $\mathbf{z}_t^{out}$。这确保每个区域只受其对应类别文本的影响，消除不同类别间的特征干扰。
感知目标选择：比较了三种感知目标：直接检测 $x_t$（噪声太大）、预测的 $x_{0|t}$、以及缓存加速后的 $x_{0|(t-N)}$。使用 $x_{0|(t-N)}$ 效果最好，因为缓存加速采样提供了更准确的干净图像预测（mAP: 35.0 → 35.3 → 35.5）。

损失函数 / 训练策略¶

ReCon 本身不涉及训练——它是一种即插即用的推理时方法。下游检测器使用标准训练流程（如 Faster R-CNN + R-50-FPN，6 epochs）。生成数据与原始训练集混合使用。生成配置：SD v1.5 + 25-step DDIM + edge-conditioned ControlNet。

实验关键数据¶

主实验（COCO 数据集）¶

方法	类型	mAP	AP50	AP75	APm	APl
Real only	-	34.5	55.5	37.1	37.9	44.3
ControlNet	通用控制	34.9	55.5	37.7	38.2	45.5
GeoDiffusion	COCO微调	34.8	55.3	37.4	38.2	45.4
DetDiffusion	COCO微调	35.4	55.8	38.3	38.5	46.6
ControlNet + ReCon	无训练	35.5	56.2	38.4	39.0	46.0
Instance Diff + ReCon	无训练	35.6	56.0	38.4	39.0	46.4

消融实验¶

RGR	RACA	FID	mAP	AP50	AP75
✘	✘	13.82	34.9	55.5	37.7
✔	✘	13.21	35.3	56.0	38.1
✔	✔	12.85	35.5	56.2	38.4

数据稀缺场景¶

方法	1% 数据	5% 数据	10% 数据
Real only	0.3	13.0	18.5
ControlNet	2.5	15.9	21.2
ReCon	3.9	16.7	21.7
ReCon + RandAugment	4.2	17.1	22.0

关键发现¶

ReCon 无需训练即超越了在 COCO 上 fine-tune 的 GeoDiffusion（35.5 vs 34.8 mAP）
两个组件（RGR + RACA）互补：RGR 提升空间一致性，RACA 提升语义一致性
增强效率显著：3 倍 ReCon 增强的效果优于 7 倍 ControlNet 基线增强
方法兼容多种检测器（Faster R-CNN、RetinaNet、YOLOX、DEIM）和生成模型（ControlNet、GLIGEN、Instance Diffusion）
VOC 数据集上也有效（77.1 → 78.5 mAP），验证了跨数据集泛化性
更强的感知模型（Swin-Base vs Swin-Tiny）带来进一步改善

亮点与洞察¶

无训练即插即用：利用现有感知模型（Grounded-SAM）和生成模型（ControlNet），无需任何 fine-tuning 即可显著提升数据质量
采样过程中的闭环控制：不是生成后过滤，而是在采样过程中实时检测和校正，更高效且保留了多样性
利用扩散采样的可覆盖性：中间步骤的区域替换不破坏整体生成过程的数学洞察
数据稀缺友好：特别适合标注数据不足的场景，这恰好是数据增强最需要的场景

局限与展望¶

依赖 Grounded-SAM 的检测质量，对于 SAM 难以处理的类别可能失效
在采样过程中多次调用感知模型，增加了生成时间
RACA 需要为每个类别独立编码文本特征，类别数很多时可能增加开销
仅在 2D 检测上验证，3D 目标检测和动态场景的适用性待探索
校正时间节点的选择（0.75T、0.50T 等）是人工设定的超参数

评分¶

新颖性: ⭐⭐⭐⭐ 区域级采样过程校正思路新颖，但各组件技术上并非全新
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多检测器、多基线、数据稀缺场景、消融全面
写作质量: ⭐⭐⭐⭐ 方法描述清晰，可视化对比丰富
价值: ⭐⭐⭐⭐ 高实用性的无训练增强方法，数据稀缺场景下价值突出