Text-guided Controllable Diffusion for Realistic Camouflage Images Generation¶

会议: AAAI 2026
arXiv: 2511.20218
代码: github.com/NikoNairre/CT-CIG
领域: 分割
关键词: 伪装图像生成, 扩散模型, 文本引导, 频率交互, Vision Language Model

一句话总结¶

提出CT-CIG，首个文本引导的可控伪装图像生成方法。利用VLM设计伪装揭示对话机制（CRDM）生成高质量文本提示，结合轻量控制网络和频率交互精炼模块（FIRM），在Stable Diffusion框架上生成逻辑合理、纹理真实的伪装图像，开创了Text-guided CIG新范式。

研究背景与动机¶

伪装（camouflage）是生物的本能生存策略——通过与环境融合使自身视觉上难以辨识。伪装图像生成（CIG）对于扩充伪装检测（COD）训练数据具有重要意义，但自然伪装图像采集困难。

现有CIG方法的两大范式及其不足：

背景适配（Background fitting）：改变物体的颜色和纹理以融入任意背景（DCI、LCG-Net、PTDiffusion）。问题在于：破坏了物体外观，且忽略了前景物体与背景环境之间的逻辑关系（如老虎脸出现在山中），产生的是视觉艺术而非自然伪装。

前景引导（Foreground guiding）：利用生成模型基于前景物体特征向外绘制背景（LAKE-RED、FACIG）。问题在于：缺乏背景语义理解，导致严重的纹理伪影，背景看起来不真实。

核心洞察：自然伪装不仅需要视觉一致性（颜色、纹理相似），还需要逻辑合理性——伪装物体与环境之间存在语义上合理的对应关系。这种逻辑关系无法从像素域直接学习，但可以通过语义域的文本提示显式地引入。

关键挑战：COD数据集缺少配对的文本描述，需要一种方法自动生成高质量、伪装感知的文本提示。

方法详解¶

整体框架¶

CT-CIG基于Stable Diffusion (SDXL)，接收三种输入： - RGB伪装图像 \(x \in \mathbb{R}^{3 \times h \times w}\) - 二值掩码 \(c_f \in \mathbb{R}^{1 \times h \times w}\) - 通过CRDM+VLM生成的文本提示 \(c\)

流程：VAE编码图像到潜空间→添加高斯噪声→轻量控制器编码掩码→FIRM频率精炼→Cross Normalization归一化→UNet扩散去噪→VAE解码。仅训练控制器、FIRM和UNet交叉注意力的线性投影层（约4%参数）。

关键设计¶

1. 伪装揭示对话机制（CRDM）¶

核心思路：利用VLM的视觉感知和上下文理解能力，通过精心设计的多轮对话生成伪装感知的文本描述。

预处理：对所有图像使用随机半透明彩色轮廓线标注物体边界——这些边界恰好是伪装的关键所在。半透明效果既帮助VLM定位伪装物体，又保留了边界像素细节。

对话设计（4轮问答）： - 问题1：获取伪装物体的描述 - 问题2：获取周围环境的描述及其与物体的关系 - 问题3：将上述描述重组为详细提示 \(T_{detail}\) - 问题4：审查所有内容并总结为一句话 \(T_{simple}\)

非伪装图像处理：对于显著性物体或一般图像，问题2改为让VLM想象一个能成功伪装该物体的理想场景，然后生成相应提示。

\(T_{detail}\) 用于训练（包含更丰富信息，防止灾难性遗忘），\(T_{simple}\) 用于推理（增加生成多样性）。

VLM选择：经CLIPScore评估，Qwen2.5-VL-7B在文本-图像对齐上表现最优（0.3242），超过BLIP2、LLaVA、Gemma3。

2. 频率交互精炼模块（FIRM）¶

核心问题：二值掩码仅提供粗略的位置和几何线索，缺少空间层次和物体内部外观信息。控制器编码的 \(x_{cf}\) 信息不足，可能产生纹理伪影和不自然幻觉。

设计思路：利用傅里叶变换从图像潜表征 \(z_t\) 中学习高频纹理信息来增强控制特征。

流程： 1. 对 \(x_{cf}\) 和 \(z_t\) 进行FFT得到频率域表征 2. 用注意力生成器（2层卷积）从 \(|z_t|\) 的频谱生成注意力图 \(A\)（先fftshift使频谱连续化以适配卷积） 3. 交互增强控制频谱：\(\hat{x}_{facf} = \hat{x}_{cf} \otimes A\) 4. 通过可学习门控自适应叠加精炼增益：\(\hat{x}_{frcf} = \hat{x}_{cf} + gate \times (\hat{x}_{facf} - \hat{x}_{cf})\) 5. IFFT变回特征域

设计动机：根据傅里叶谱理论，低频贡献整体结构信息，高频贡献纹理和精细模式。FIRM使控制特征获得来自图像的细节纹理表征，确保生成复杂伪装纹理的鲁棒性。

3. 交叉归一化（Cross Normalization）¶

FIRM精炼后的控制特征与噪声潜表征之间存在分布差异，可能导致颜色不稳定。CN通过对控制特征进行标准化并用潜表征的统计量进行仿射变换：

\[x'_{frcf} = \mu_z + \frac{x_{frcf} - \mu_{cf}}{\sqrt{\sigma^2_{cf} + \varepsilon}} \times \sigma_z\]

使最终控制信号与噪声潜表征分布一致，替代ControlNet中的"零卷积"层。

损失函数 / 训练策略¶

总损失结合条件扩散损失和LPIPS感知损失：

\[\mathcal{L} = \mathcal{L}_{SD} + \lambda_{Lpips} \cdot \mathcal{L}_{Lpips}\]

其中： - \(\mathcal{L}_{SD}\)：标准的条件扩散噪声预测MSE损失 - \(\mathcal{L}_{Lpips}\)：LPIPS感知损失，最小化生成结果与输入图像的VGG特征差异 - \(\lambda_{Lpips} = 1\text{e-3}\) - 控制器和FIRM学习率1e-4，UNet学习率5e-6 - 训练80 epochs，4×RTX A5000约8小时 - 控制缩放因子1.2

实验关键数据¶

主实验¶

范式	方法	伪装FID↓	显著FID↓	一般FID↓	总体FID↓	总体KID↓	CLIP↑
背景适配	LCGNet	129.80	136.24	132.64	129.88	0.0550	—
前景引导	LAKERED	39.55	88.70	102.67	64.27	0.0355	—
文本引导	ControlNet	39.67	81.72	102.94	59.52	0.0227	0.2950
文本引导	SOO	30.92	89.46	117.31	59.75	0.0187	0.3043
文本引导	CT-CIG	30.59	81.60	104.46	52.88	0.0169	0.3243

CT-CIG在总体FID上以52.88大幅领先，CLIPScore最高表明最佳语义对齐。

消融实验¶

FIRM和CN的作用：

配置	FID↓	KID↓	说明
w/o FIRM & CN	32.37	0.0079	基线，纹理伪影明显
w/o CN	33.99	0.0114	缺少分布对齐
w/o FIRM	31.66	0.0080	缺少高频纹理细节
CT-CIG完整	30.59	0.0085	最佳

文本提示配置的影响：

配置	CLIP↑	FID↓	KID↓	说明
简单文本训练	0.3183	54.92	0.0387	灾难性遗忘，结果模糊
无物体轮廓	0.3247	39.24	0.0112	CLIP高但不匹配形状引导
提及轮廓	0.3218	39.79	0.0138	产生线条画伪影
静默轮廓（ours）	0.3242	30.59	0.0085	最佳平衡

VLM选择（CLIPScore）：

VLM	CLIP simple	CLIP detail
BLIP2-2.7B	0.2461	0.2859
LLaVA-13B	0.2986	0.2969
Gemma3-4B	0.3127	0.3136
Qwen2.5-VL-7B	0.3183	0.3242

关键发现¶

文本引导范式全面优于背景适配和前景引导，语义理解是实现自然伪装的关键
半透明轮廓标注在帮助VLM感知伪装的同时，必须在文本中保持"静默"——提及轮廓会误导生成
详细提示训练+简单提示推理的策略，在防止遗忘的同时保持生成多样性
FIRM的高频纹理增强和CN的分布对齐在视觉质量上互补，二者都不可或缺

亮点与洞察¶

开创Text-guided CIG新范式：首次将伪装生成从纯视觉任务提升为视觉-语言联合任务，引入逻辑合理性约束
CRDM设计精巧：4轮对话逐步引导VLM从感知→理解→描述→总结，对伪装/非伪装图像设计不同对话策略
半透明轮廓的巧思：既辅助VLM定位伪装物体，又保留边界像素信息，平衡了定位辅助和信息保真
频率域增强控制信号：在扩散模型中引入傅里叶变换来增强信息贫乏的二值掩码控制，是少见但有效的设计
参数效率高：仅微调约4%参数即可适配伪装场景

局限与展望¶

依赖COD数据集的掩码质量，掩码标注噪声会影响训练效果
VLM生成的文本提示质量有上限，复杂场景的描述可能不够准确
生成图像的分辨率受限于SDXL（512×512），难以满足高分辨率需求
训练数据量有限（LAKE-RED仅4040张训练图），可能限制泛化性
未评估生成图像对下游COD任务的实际数据增强效果

评分¶

新颖性: ⭐⭐⭐⭐ （文本引导伪装生成是新范式，但各组件相对标准）
实验充分度: ⭐⭐⭐⭐ （与11种方法比较，消融详尽，但缺少下游任务评估）
写作质量: ⭐⭐⭐⭐ （结构清晰，图表丰富，范式分类明确）
价值: ⭐⭐⭐⭐ （开创新范式，对COD数据增强有应用价值）