T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting¶
会议: CVPR 2025
arXiv: 2502.20625
代码: https://github.com/cha15yq/T2ICount
领域: 图像生成/零样本计数
关键词: 零样本目标计数, 扩散模型, 文本敏感性, 跨模态对齐, 密度估计
一句话总结¶
提出T2ICount,利用预训练文生图扩散模型的单步去噪特征进行零样本目标计数,通过层次语义校正模块(HSCM)和表征区域一致性损失(\(\mathcal{L}_{RRC}\))解决单步去噪的文本敏感性不足问题。
研究背景与动机¶
零样本目标计数旨在根据文本描述对图像中任意类别目标进行计数,无需视觉样例。现有方法主要基于CLIP视觉-语言模型,但存在根本性问题:
- 文本不敏感:CLIP图像编码器在全局语义层面工作,自然倾向于关注图像中的多数类目标,当文本指定的是少数类时,模型无法正确响应
- 数据集偏差:FSC-147等基准数据集中,标注类别几乎总是图像中的多数类,掩盖了模型的文本敏感性问题
- 扩散模型的潜力:文生图扩散模型具有丰富的像素级语义理解能力,天然适合计数这种像素级任务,但多步去噪过程计算代价过高
然而使用单步去噪来提高效率时,文本-视觉对应关系建立不充分,交叉注意力图呈现严重的语义错位——不相关区域被高亮,相关目标上的注意力不一致。
方法详解¶
整体框架¶
T2ICount以Stable Diffusion为基础,输入图像和文本提示经过单步去噪,从U-Net解码器提取多尺度特征图,通过HSCM逐层精炼文本-图像对齐,最终生成密度图进行计数。
关键设计¶
设计一:层次语义校正模块(Hierarchical Semantic Correction Module, HSCM)
- 功能:弥补单步去噪导致的文本-图像交互不足
- 核心思路:三阶段级联设计。每阶段先融合相邻尺度特征 \(F_i' = \text{Conv}(\text{Concat}(\text{Up}(V_{i+1}), F_i))\),然后通过SEM(双向跨模态注意力+文本-图像相似度计算)和SCM(用上一阶段的相似度图引导特征校正)交替精炼
- 设计动机:单步去噪的跨模态对齐太弱,需要额外的多阶段校正。SEM学习生成类似分割掩码的文本-图像相似度图 \(S_i\),SCM用 \(V_{i+1} \odot S_{i+1}\) 将注意力重定向到文本相关区域
设计二:表征区域一致性损失(Representational Regional Coherence Loss, \(\mathcal{L}_{RRC}\))
- 功能:利用扩散模型的交叉注意力图生成可靠的正负样本监督信号
- 核心思路:虽然单步注意力图对特定类别不敏感,但它能有效捕获整体前景区域。融合多尺度交叉注意力图 \(\mathcal{A}^{cross}\),结合ground-truth密度图,生成正-负-模糊(PNA)三元掩码:密度高的为正、注意力低的为负、其余为模糊(不施加约束)
- 设计动机:计数数据集只有点标注,传统方法用密度阈值区分前景/背景,但会将大量前景区域误判为背景。PNA掩码通过注意力图识别背景,避免了对前景的误判
设计三:FSC-147-S评估基准
- 功能:提供更严格的文本引导计数评估协议
- 核心思路:从FSC-147中筛选并重标注图像,使文本指定的类别与多数类不同,专门测试模型对少数类的计数能力
- 设计动机:现有基准中标注类几乎总是多数类,模型即使完全忽略文本也能获得不错分数,无法真正评估文本敏感性
损失函数¶
总损失由回归损失和区域一致性损失组成:
其中 \(\mathcal{L}_{RRC} = \lambda \mathcal{L}_{pos} + \mathcal{L}_{neg}\),正样本损失拉近相似度到1,负样本损失用hinge推远至0以下。
实验关键数据¶
FSC-147测试集¶
| 方法 | 类型 | MAE↓ | RMSE↓ |
|---|---|---|---|
| FamNet (3-shot) | Few-shot | 22.56 | 101.54 |
| BMNet (3-shot) | Few-shot | 14.62 | 91.83 |
| CLIP-Count | Zero-shot | 17.78 | 112.09 |
| VLCounter | Zero-shot | 17.05 | 106.16 |
| T2ICount | Zero-shot | 15.89 | 94.32 |
FSC-147-S(文本敏感性评估)¶
| 方法 | MAE↓ | RMSE↓ |
|---|---|---|
| CLIP-Count | 32.41 | 48.75 |
| VLCounter | 29.83 | 45.12 |
| T2ICount | 18.56 | 31.27 |
消融实验¶
| 组件 | Val MAE | Test MAE |
|---|---|---|
| Baseline (单步U-Net特征) | 22.15 | 21.35 |
| + HSCM | 18.42 | 17.89 |
| + \(\mathcal{L}_{RRC}\) | 16.73 | 16.41 |
| + HSCM + \(\mathcal{L}_{RRC}\) (完整) | 15.56 | 15.89 |
关键发现¶
- T2ICount作为零样本方法,性能接近甚至超越部分few-shot方法(如FamNet 3-shot)
- 在FSC-147-S上,T2ICount的MAE比CLIP-Count降低约43%,证明了显著的文本敏感性优势
- HSCM和 \(\mathcal{L}_{RRC}\) 各贡献约3-4 MAE的提升,两者互补
- 交叉注意力图虽然对特定类别不敏感,但作为前景检测器效果良好——这一观察非常新颖
亮点与洞察¶
- 发现并解决文本不敏感问题:指出了零样本计数领域一个被忽视的根本性问题,并通过新方法和新评估协议双管齐下解决
- 扩散模型注意力图的创造性利用:虽然单步注意力图类别敏感性差,但用作前景检测器生成监督信号非常巧妙
- PNA三元掩码设计:优雅地解决了点标注场景下正负样本划分的难题,避免了将前景误判为背景
局限与展望¶
- 依赖预训练Stable Diffusion,模型体量较大,推理速度仍受限于U-Net的前向传播
- 单步去噪的信息量有限,多步去噪+蒸馏可能进一步提升性能
- FSC-147-S规模有限,需要更大规模的文本敏感性评估基准
- 未探索更新的扩散模型(如SDXL、SD3)是否能提供更好的特征
相关工作与启发¶
- CLIP-Count/VLCounter:基于CLIP的零样本计数先驱,本文揭示了其文本不敏感的根本缺陷
- CounTR/LOCA:few-shot计数方法,T2ICount在零样本设定下接近其性能令人印象深刻
- DiffusionDet:扩散模型用于检测的探索,启发了将扩散特征用于计数的思路
- 启发:扩散模型的中间特征在多种视觉任务中展现了强大能力,值得在更多任务中探索
评分¶
⭐⭐⭐⭐ — 问题定位准确(文本不敏感),解决方案creative(PNA掩码+HSCM),实验设计周全(新建FSC-147-S)。作为将扩散模型引入零样本计数的工作,做出了实质性贡献。不足在于模型效率和FSC-147-S规模较小。
相关论文¶
- [CVPR 2025] Diffusion Self-Distillation for Zero-Shot Customized Image Generation
- [ECCV 2024] MultiGen: Zero-Shot Image Generation from Multi-modal Prompts
- [CVPR 2025] Font-Agent: Enhancing Font Understanding with Large Language Models
- [CVPR 2025] Z-Magic: Zero-shot Multiple Attributes Guided Image Creator
- [CVPR 2025] Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data (SPARCL)