A Unified Image-Dense Annotation Generation Model for Underwater Scenes¶

会议: CVPR 2025
arXiv: 2503.21771
代码: https://github.com/HongkLin/TIDE
领域: 3D视觉
关键词: 水下场景, 数据合成, 扩散模型, 深度估计, 语义分割

一句话总结¶

本文提出TIDE，一种统一的文本到图像和密集标注生成方法，仅以文本为输入就能同时生成高度一致的水下图像、深度图和语义掩码，通过隐式布局共享（ILS）和时间自适应归一化（TAN）机制确保多模态输出的一致性，合成的SynTIDE数据集显著提升了水下深度估计和语义分割性能。

研究背景与动机¶

水下密集预测（深度估计和语义分割）是水下探索和环境监测的核心技术。然而，高质量、大规模的水下密集标注数据极度稀缺——水下环境复杂、数据采集成本高昂，成为制约技术发展的关键瓶颈。

前人工作Atlantis利用ControlNet以陆地深度图为条件生成水下深度数据，取得了一定效果。但存在两个核心问题：1）使用陆地深度图作为条件是次优方案，生成的数据可能不符合真实水下场景的分布；2）只能生成单一类型的标注（深度图），无法满足水下场景的综合理解需求。

本文的出发点是一个自然的问题：能否只用文本就同时生成高质量的水下图像和多种密集标注？这需要解决的核心难题是：并行生成的图像和标注之间如何保持高度一致性。

方法详解¶

整体框架¶

TIDE基于预训练的PixArt-α文本到图像Transformer构建，并行设置三个去噪分支：text-to-image、text-to-depth、text-to-mask。三个分支共享文本编码器，通过ILS和TAN两个机制实现跨模态对齐。推理时仅需输入文本描述，即可同时输出一致的水下图像、深度图和语义掩码。

关键设计¶

隐式布局共享（Implicit Layout Sharing, ILS）:
- 核心观察：在文本到图像模型中，交叉注意力图（cross-attention map）控制着生成图像的布局
- 将text-to-image分支中计算得到的交叉注意力图$\mathbf{M}_i = \text{softmax}(\mathbf{Q}_i \mathbf{K}_i^\top / \sqrt{c})$直接替换到depth和mask分支中
- depth和mask分支的交叉注意力简化为$\text{Attn}_d = \mathbf{M}_i \times \mathbf{V}_d$和$\text{Attn}_m = \mathbf{M}_i \times \mathbf{V}_m$
- 这种设计优雅高效：既保证了布局一致性，又减少了text-to-dense分支的交叉注意力计算量
- 利用text-to-image模型在大规模数据上预训练获得的强布局控制力
时间自适应归一化（Time Adaptive Normalization, TAN）:
- 考虑到不同模态特征之间的互补性，引入跨模态特征交互
- 将跨模态特征$\mathbf{x}_f$通过MLP映射为两个归一化参数$\gamma$和$\beta$
- 引入时间嵌入$\mathbf{x}_t$产生自适应系数$\alpha$（通过线性变换+Sigmoid），控制跨模态影响的强度
- 归一化公式：$\mathbf{x}' = \alpha \cdot \gamma \mathbf{x} + \alpha \cdot \beta$，$\mathbf{x}^* = \mathbf{x}' + \mathbf{x}$（残差连接）
- 交互方向：depth↔mask双向交互；depth+mask→image的双模态融合（取平均$\bar{\gamma}$和$\bar{\beta}$）
- TAN与ILS互补：ILS保证宏观布局一致，TAN进一步优化细节层面的特征对齐
数据准备与训练策略:
- 基于现有水下分割数据集（SUIM、UIIS、USIS10K）构建约14K个四元组{Image, Depth, Mask, Caption}
- 深度图由预训练的Depth Anything生成（伪标签）；Caption由BLIP2生成
- 两阶段训练：(1) Mini-Transformer预训练：用PixArt-α前10层初始化，在14K图像-文字对上训练60K迭代；(2) TIDE联合训练：用LoRA微调200K迭代，batch size=4
- LoRA rank分别为text-to-image:32, text-to-depth:64, text-to-mask:64
SynTIDE数据集合成:
- 从14K caption中去重得到约5K个非冗余caption
- 每个caption生成10个样本，构建大规模合成数据集
- 可生成训练时未见过的水下场景（零样本生成能力，得益于LoRA微调保留了预训练模型的泛化力）

损失函数 / 训练策略¶

总损失为三个分支的去噪MSE损失之和： $$\mathcal{L} = \mathcal{L}_{mse}^I + \mathcal{L}_{mse}^D + \mathcal{L}_{mse}^M$$

可训练参数仅包括TAN模块和LoRA参数，基础Transformer权重冻结。

实验关键数据¶

主实验 — 水下深度估计¶

模型	数据集	指标	Atlantis	SynTIDE	提升
NewCRFs	Sea-thru D3+D5	$SI_{log}$↓	37.10	22.37	-14.73
NewCRFs	Sea-thru D3+D5	$\delta_1$↑	0.48	0.84	+0.36
AdaBins	Sea-thru D3+D5	$SI_{log}$↓	38.24	26.92	-11.32
MIM	Sea-thru D3+D5	$SI_{log}$↓	37.01	22.49	-14.52
PixelFormer	SQUID	$SI_{log}$↓	21.34	19.08	-2.26

主实验 — 水下语义分割¶

模型	训练数据	UIIS mIoU	USIS10K mIoU
Segformer	Real	70.2	74.6
Segformer	Real+SynTIDE	75.4(+5.2)	76.1(+1.5)
Mask2former	Real	72.7	76.1
Mask2former	Real+SynTIDE	74.3(+1.6)	77.1(+1.0)
ViT-Adapter	Real	73.5	74.6

消融实验¶

配置	关键指标	说明
无ILS，无TAN	一致性低	基线并行生成
有ILS，无TAN	布局一致	宏观对齐有效
有ILS，有TAN	一致性最高	ILS和TAN互补

关键发现¶

SynTIDE在深度估计上全面超越Atlantis，尤其在NewCRFs模型上$SI_{log}$提升14.73
$\delta_1$指标从0.48提升到0.84（36个百分点），说明合成数据显著提升了模型对水下深度的感知能力
单独使用SynTIDE训练分割模型效果接近真实数据，与真实数据联合使用效果最佳
零样本生成能力使得TIDE可以生成训练集未覆盖的水下场景

亮点与洞察¶

统一框架的设计思路很有前瞻性——一次生成多种标注比分步生成更高效、更一致
ILS机制的设计非常巧妙：直接复用text-to-image的注意力图，零额外计算开销就获得布局一致性
TAN引入时间维度的自适应调控，让跨模态交互在不同扩散时间步有不同的影响强度，这个设计很合理
仅用14K训练样本+LoRA微调就实现了如此大的性能提升，说明方法有效利用了预训练知识
水下场景数据合成的关键洞察：文本条件比深度图条件更灵活，能覆盖更多场景变体

局限与展望¶

深度图真值由Depth Anything生成（伪标签），深度精度受限于单目深度估计模型的能力
当前仅支持深度和语义掩码两种标注类型，可以扩展到法向量、表面法线等
训练数据规模较小（14K），可能限制了生成多样性
生成图像的质量和真实感仍依赖于预训练文本到图像模型的能力
SQUID数据集上部分模型提升较小甚至个别指标略有下降（如S.Rel），说明合成数据分布与某些真实场景仍有差距
目前仅验证了水下场景，迁移到其他数据稀缺领域的效果有待验证

评分¶

新颖性: ⭐⭐⭐⭐ 首个同时从文本生成图像+多类密集标注的方法，ILS和TAN设计精巧
实验充分度: ⭐⭐⭐⭐ 在深度估计和语义分割两个下游任务上充分验证，多模型多数据集
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，方法描述直观，图示质量高
价值: ⭐⭐⭐⭐ 提供了数据稀缺场景下的有效解决方案，方法可推广性强