Boosting Quantitive and Spatial Awareness for Zero-Shot Object Counting¶

会议: CVPR 2026
arXiv: 2603.16129
代码: 即将开源
领域: LLM效率
关键词: zero-shot counting, vision-language model, prompt tuning, cost aggregation, quantity awareness

一句话总结¶

提出QICA框架解决零样本目标计数中的数量感知缺失和空间不敏感问题，通过数量条件化的协同提示策略（SPS）联合适配视觉-语言编码器，结合在相似度图上直接操作的代价聚合解码器（CAD）保持零样本迁移能力，在FSC-147上达到零样本SOTA（MAE 12.41）并展现强跨域泛化。

研究背景与动机¶

领域现状：零样本目标计数（ZSOC）旨在仅通过文本描述枚举任意类别物体。主流方法利用CLIP等VLM计算视觉-文本相似度图，再用CNN/Transformer解码器预测密度图。
现有痛点：(1) 缺乏数量感知——文本提示仅指定类别不包含数量信息，模型擅长识别"是什么"但不理解"有多少"，特别是密集场景下精度受限；(2) 空间不敏感+特征空间畸变——直接fine-tune VLM编码器导致严重过拟合训练类别，破坏预训练特征空间，损害零样本泛化。
核心矛盾：要精确计数就需适配编码器学习数量敏感特征，但fine-tuning又会破坏零样本泛化能力——这形成了适配vs泛化的两难困境。
本文要解决什么：(1) 让模型具备细粒度数量区分能力；(2) 在不破坏预训练特征空间的前提下实现有效适配。
切入角度：引入数量条件化提示让编码器隐式学习数量信息，同时在相似度图（而非特征空间）上操作来避免特征畸变。
核心idea一句话：训练时用factual/counterfactual数量提示教模型区分不同数量，推理时仅用类别提示实现零样本计数。

方法详解¶

整体框架¶

输入为图像 \(I\) 和文本描述 \(T\)，输出为密度图 \(D\)。框架包含三个核心模块：(1) SPS通过数量条件化可学习提示联合适配冻结的CLIP视觉和语言编码器；(2) CAD在视觉-文本相似度图上进行空间聚合和多尺度上采样预测密度图；(3) \(\mathcal{L}_{MQA}\) 在编码器和解码器两级强制数量一致性。关键设计：训练时包含数量信息的路径在推理时被关闭，仅保留类别语义路径。

关键设计¶

协同提示策略（Synergistic Prompting Strategy, SPS）
做什么：通过数量条件化的可学习提示联合适配视觉和语言编码器
核心思路：将数量值 \(q\) 映射为连续嵌入 \(\epsilon_q\)，与每层的可学习提示 \(\Pi^j\) 相加生成数量感知文本提示 \(\hat{\Pi}^j_k = \Pi^j + \epsilon_{q_k}\mathbf{1}^T\)。通过耦合函数 \(\Phi^j\) 将语言提示投影为视觉提示 \(\Psi^j_k = \Phi^j(\hat{\Pi}^j_k)\)，实现双向梯度流。训练时为每张图生成factual（真实数量）和counterfactual（偏离数量）提示
设计动机：独立的单模态提示无法实现跨模态的数量感知协调。耦合函数建立了语言→视觉的直接梯度通路，使两个编码器联合向数量感知方向适配
代价聚合解码器（Cost Aggregation Decoder, CAD）
做什么：直接在视觉-文本余弦相似度图上操作，通过空间聚合产生密度图
核心思路：先计算密集视觉特征 \(\mathbf{V}\) 与类别文本嵌入 \(\mathbf{T}^{\text{cat}}_k\) 的逐位置余弦相似度，得到相似度图 \(\mathbf{S}_k\)；再通过嵌入层→Swin Transformer空间聚合→多尺度上采样（带skip connection和相似度门控）→预测头生成最终密度图
设计动机：在特征空间操作会破坏预训练manifold导致过拟合，而在相似度图（一个标量场）上聚合保持了嵌入空间的完整性，既能fine-tune编码器又不损害泛化
多级数量对齐损失（\(\mathcal{L}_{MQA}\)）
做什么：在编码器和解码器两级强制数量一致性约束
核心思路：编码器级用ranking loss确保真实数量假设的全局相似度最高 \(\alpha_0 > \alpha_i\)，且数量越接近真实值相似度越高；解码器级用辅助MSE损失约束各数量假设的密度图积分匹配对应数量值。总损失 \(\mathcal{L}_{MQA} = \|D^0 - D^{GT}\|_2^2 + \lambda_1 \mathcal{L}^{qty}_{enc} + \lambda_2 \mathcal{L}^{qty}_{dec}\)
设计动机：仅在解码器端监督是不够的，编码器级的ranking约束让特征空间在训练阶段就隐式编码数量信息，使得推理时不需要数量提示也能准确计数

损失函数 / 训练策略¶

密度图MSE + encoder ranking loss (\(\lambda_1=0.1\)) + decoder counting loss (\(\lambda_2=0.05\))
训练时每张图生成 \(K\) 个数量假设（factual + counterfactual），独立前向传播共享编码器参数
推理时完全不需要数量信息，仅输入类别文本

实验关键数据¶

主实验¶

FSC-147 零样本计数

方法	Backbone	Val MAE↓	Val RMSE↓	Test MAE↓	Test RMSE↓
CounTX	ViT-B/16	17.76	65.21	16.70	105.21
VLCounter	ViT-B/16	18.06	65.13	17.05	106.16
T2ICount	SD-v1.5	13.78	58.78	11.76	97.86
CountGD	GDINO-Swin-B	12.14	47.51	14.76	120.42
QICA	ViT-B/16	13.82	60.24	13.05	104.17
QICA†	ViT-L/14	12.98	56.35	12.41	-

消融实验¶

配置	Val MAE	Test MAE	说明
Baseline (CLIP + Conv decoder)	~18	~17	无数量感知
+ SPS (仅文本提示)	~16	~15	单模态提示有限改进
+ SPS (协同提示)	~15	~14	双模态耦合显著提升
+ CAD	~14	~13.5	空间聚合进一步优化
+ \(\mathcal{L}_{MQA}\) (完整模型)	13.82	13.05	多级约束最终效果

关键发现¶

QICA在相同backbone（ViT-B/16）下显著超越所有零样本方法（CounTX MAE 16.70 → QICA 13.05）
跨域泛化测试（CARPK、ShanghaiTech-A）上超越所有基线，证明没有过拟合
SPS中耦合函数比独立prompting提升约1.5 MAE，说明双模态协同很关键
CAD比直接在特征空间解码的方案MAE低约1-2点，同时保持了零样本能力
数量ranking loss的贡献在密集场景（物体数多）中更加显著

亮点与洞察¶

训练-推理一致性的精巧设计：训练时用数量感知的完整嵌入 \(T^{full}\) 通过投影得到类别嵌入 \(T^{cat}\)，推理时自然产生语义等价的类别嵌入——数量知识被"蒸馏"进了视觉编码器的隐式表示中
在相似度图而非特征空间操作：这个设计选择非常关键——CAD作用于一个标量场（相似度图），对预训练特征空间零破坏，解决了fine-tuning VLM的老大难问题
Factual/Counterfactual数量提示：用"正确数量"和"错误数量"的对比学习方式教模型数量感知，比简单加数量标签更有区分度

局限性 / 可改进方向¶

仍依赖预训练VLM的类别识别能力，对VLM未见过的极其罕见物体可能失效
K个数量假设的多次前向传播增加了训练开销
密度图MSE损失在极端稀疏/极端密集场景下可能不平衡
可以探索将数量感知机制扩展到开集检测/分割任务

评分¶

新颖性: ⭐⭐⭐⭐ 数量感知提示和代价聚合解码器的结合很有创意，训练-推理一致性设计精巧
实验充分度: ⭐⭐⭐⭐ FSC-147 + 跨域验证 + 丰富消融
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述详细
价值: ⭐⭐⭐⭐ 零样本计数方向的实用贡献