ReCon: Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection¶
会议: NeurIPS 2025
arXiv: 2510.15783
代码: https://github.com/haoweiz23/ReCon
领域: 目标检测 / 数据增强
关键词: 数据增强, 目标检测, 扩散模型, 区域控制, ControlNet
一句话总结¶
ReCon 提出无需额外训练的区域可控数据增强框架,通过区域引导校正(RGR)和区域对齐交叉注意力(RACA)增强现有结构可控生成模型的目标检测数据质量,在 COCO 上实现 35.5 mAP(超过需 fine-tune 的 GeoDiffusion)。
研究背景与动机¶
目标检测模型高度依赖大规模标注数据集,但标注成本极高(如 Cityscapes 单张图标注需 60 分钟)。生成模型作为数据增强工具日益受到关注,但面临两个核心问题:
现有痛点:
内容-位置不匹配:结构可控生成模型(如 ControlNet)在复杂布局下容易生成错误数量的目标或在错误位置生成目标对象
语义泄漏:text-to-image 生成中,不同类别的文本特征互相干扰,导致生成区域的语义与标注不一致
方法复杂度高:现有方法要么需要额外的后处理过滤(如 CLIP score 过滤),要么需要大规模数据集上的 fine-tuning(如 GeoDiffusion、DetDiffusion),在数据稀缺场景下不适用
核心idea:在扩散模型的采样过程中直接集成区域级别的校正和对齐机制,无需任何额外训练,即可显著提升生成数据的质量和可训练性。
方法详解¶
整体框架¶
ReCon 建立在现有结构控制模型(如 ControlNet + Canny edge)之上,在扩散采样的每一步中嵌入两个模块: 1. 区域引导校正(RGR):用感知模型检测中间结果,校正误生成区域 2. 区域对齐交叉注意力(RACA):将区域特征与对应文本特征独立交互,防止语义泄漏
关键设计¶
-
区域引导校正(Region-Guided Rectification, RGR):利用 Grounded-SAM 模型在采样过程中检测中间生成结果。具体地,利用缓存加速采样技术在 N=5 步后获得一个干净的预测 \(\mathbf{z}_{0|t-N}\),用 Grounded-SAM 检测目标。通过 IoU 匹配检测结果与真实标注,识别假阳性和假阴性区域,构建二值掩码 M。对误生成区域注入原始图像的加噪版本: $\(\mathbf{z}'_t = \mathbf{M} \odot \mathbf{z}_t^{\text{orig}} + (1-\mathbf{M}) \odot \mathbf{z}_t\)$ 在采样的 4 个时间节点(0.75T、0.50T、0.25T、0.10T)分别校正空间布局、语义内容和生成质量。利用扩散采样的可覆盖性(overridability),区域替换不会破坏整体推理过程。
-
区域对齐交叉注意力(Region-Aligned Cross-Attention, RACA):针对语义泄漏问题,为每个目标类别独立编码文本特征(格式 "[CLASS]"),以及一个全局场景描述。在 U-Net 的交叉注意力中,从潜在特征 \(\mathbf{z}_t^{in}\) 中裁剪出各区域特征,与对应类别的文本特征独立执行交叉注意力,然后拼接回 \(\mathbf{z}_t^{out}\)。这确保每个区域只受其对应类别文本的影响,消除不同类别间的特征干扰。
-
感知目标选择:比较了三种感知目标:直接检测 \(x_t\)(噪声太大)、预测的 \(x_{0|t}\)、以及缓存加速后的 \(x_{0|(t-N)}\)。使用 \(x_{0|(t-N)}\) 效果最好,因为缓存加速采样提供了更准确的干净图像预测(mAP: 35.0 → 35.3 → 35.5)。
损失函数 / 训练策略¶
ReCon 本身不涉及训练——它是一种即插即用的推理时方法。下游检测器使用标准训练流程(如 Faster R-CNN + R-50-FPN,6 epochs)。生成数据与原始训练集混合使用。生成配置:SD v1.5 + 25-step DDIM + edge-conditioned ControlNet。
实验关键数据¶
主实验(COCO 数据集)¶
| 方法 | 类型 | mAP | AP50 | AP75 | APm | APl |
|---|---|---|---|---|---|---|
| Real only | - | 34.5 | 55.5 | 37.1 | 37.9 | 44.3 |
| ControlNet | 通用控制 | 34.9 | 55.5 | 37.7 | 38.2 | 45.5 |
| GeoDiffusion | COCO微调 | 34.8 | 55.3 | 37.4 | 38.2 | 45.4 |
| DetDiffusion | COCO微调 | 35.4 | 55.8 | 38.3 | 38.5 | 46.6 |
| ControlNet + ReCon | 无训练 | 35.5 | 56.2 | 38.4 | 39.0 | 46.0 |
| Instance Diff + ReCon | 无训练 | 35.6 | 56.0 | 38.4 | 39.0 | 46.4 |
消融实验¶
| RGR | RACA | FID | mAP | AP50 | AP75 |
|---|---|---|---|---|---|
| ✘ | ✘ | 13.82 | 34.9 | 55.5 | 37.7 |
| ✔ | ✘ | 13.21 | 35.3 | 56.0 | 38.1 |
| ✔ | ✔ | 12.85 | 35.5 | 56.2 | 38.4 |
数据稀缺场景¶
| 方法 | 1% 数据 | 5% 数据 | 10% 数据 |
|---|---|---|---|
| Real only | 0.3 | 13.0 | 18.5 |
| ControlNet | 2.5 | 15.9 | 21.2 |
| ReCon | 3.9 | 16.7 | 21.7 |
| ReCon + RandAugment | 4.2 | 17.1 | 22.0 |
关键发现¶
- ReCon 无需训练即超越了在 COCO 上 fine-tune 的 GeoDiffusion(35.5 vs 34.8 mAP)
- 两个组件(RGR + RACA)互补:RGR 提升空间一致性,RACA 提升语义一致性
- 增强效率显著:3 倍 ReCon 增强的效果优于 7 倍 ControlNet 基线增强
- 方法兼容多种检测器(Faster R-CNN、RetinaNet、YOLOX、DEIM)和生成模型(ControlNet、GLIGEN、Instance Diffusion)
- VOC 数据集上也有效(77.1 → 78.5 mAP),验证了跨数据集泛化性
- 更强的感知模型(Swin-Base vs Swin-Tiny)带来进一步改善
亮点与洞察¶
- 无训练即插即用:利用现有感知模型(Grounded-SAM)和生成模型(ControlNet),无需任何 fine-tuning 即可显著提升数据质量
- 采样过程中的闭环控制:不是生成后过滤,而是在采样过程中实时检测和校正,更高效且保留了多样性
- 利用扩散采样的可覆盖性:中间步骤的区域替换不破坏整体生成过程的数学洞察
- 数据稀缺友好:特别适合标注数据不足的场景,这恰好是数据增强最需要的场景
局限与展望¶
- 依赖 Grounded-SAM 的检测质量,对于 SAM 难以处理的类别可能失效
- 在采样过程中多次调用感知模型,增加了生成时间
- RACA 需要为每个类别独立编码文本特征,类别数很多时可能增加开销
- 仅在 2D 检测上验证,3D 目标检测和动态场景的适用性待探索
- 校正时间节点的选择(0.75T、0.50T 等)是人工设定的超参数
相关工作与启发¶
ReCon 的创新在于将生成质量的评估从生成后过滤转移到生成过程中的在线控制。这一思路类似于 DistDiff 的采样过程引导,但 ReCon 使用的是基于检测模型的区域级校正,而非全局特征引导。与 DetDiffusion 的感知感知损失训练相比,ReCon 提供了无需训练的替代方案。该方法的即插即用特性使其可以轻松集成到任何基于扩散模型的数据增强流水线中。
评分¶
- 新颖性: ⭐⭐⭐⭐ 区域级采样过程校正思路新颖,但各组件技术上并非全新
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多检测器、多基线、数据稀缺场景、消融全面
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,可视化对比丰富
- 价值: ⭐⭐⭐⭐ 高实用性的无训练增强方法,数据稀缺场景下价值突出
相关论文¶
- [CVPR 2025] Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection
- [NeurIPS 2025] Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable
- [CVPR 2026] UAVGen: Visual Prototype Conditioned Focal Region Generation for UAV-Based Object Detection
- [NeurIPS 2025] ReCon-GS: Continuum-Preserved Gaussian Streaming for Fast and Compact Reconstruction
- [CVPR 2026] Parameter-Efficient Semantic Augmentation for Enhancing Open-Vocabulary Object Detection