Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting (WS-COC)¶

会议: ICLR 2026
arXiv: 2602.12774
代码: https://github.com/viscom-tongji/WS-COC
领域: 多模态VLM
关键词: object counting, weakly supervised, MLLM, class-agnostic, dialogue tuning

一句话总结¶

提出 WS-COC，首个基于 MLLM 的弱监督类无关目标计数框架，通过分而治之的对话微调（逐步缩小计数范围）、比较排序优化（学习图像间相对计数关系）和全局-局部计数增强三个策略，仅用图像级计数标注即可匹敌甚至超越全监督方法。

研究背景与动机¶

领域现状：目标计数传统上依赖逐点标注的密度图回归（全监督），成本高昂。弱监督方法仅用图像级计数但目前仅限于单一类别（如行人计数）。
现有痛点：(1) 全监督方法需要标注每个目标实例的位置——在密集场景中极其耗时；(2) 现有弱监督方法基于 CNN/ViT，局限于特定类别；(3) MLLM 有潜在计数能力但在密集场景中严重低估（直接预测一个数字太难）。
核心矛盾：MLLM 预训练数据中多为稀疏场景，对密集场景的数量感知不足。直接微调 MLLM 回归计数值面临视觉-文本的模态鸿沟——高维视觉特征到离散标量的映射难以学习。
本文要解决什么？ 如何利用 MLLM 的推理能力，仅用图像级计数标注实现类无关的目标计数？
切入角度：不直接预测计数值，而是分解为更易学的子任务——范围判断（二分法缩小范围）和相对比较（图像间排序）。
核心idea一句话：将计数从"预测一个数字"重构为"判断范围+相对排序+局部聚合"三个 MLLM 更擅长的子任务。

方法详解¶

整体框架¶

WS-COC 在 LLaVA-OneVision 上用 LoRA 微调，训练时使用 D3T + CRCO 两个策略，推理时使用 GLCE 策略。仅需图像级计数标注作为监督。

关键设计¶

Divide-and-Discern Dialogue Tuning (D3T):
做什么：将精确计数转化为多轮范围判断对话
核心思路：设初始范围 [1, 2000]，每轮二分——"图像中的 [obj] 数量是否超过 τ？" 答 Yes/No 并更新范围。当范围窄到 \(U_t - L_t < 0.2c\) 时要求预测精确计数。用课程学习方式从粗到细
设计动机：判断数量是否超过某个阈值比直接预测数字容易得多。多轮对话让 MLLM 渐进式聚焦
Compare-and-Rank Count Optimization (CRCO):
做什么：训练 MLLM 判断多张图像的相对计数排序
核心思路：按计数将同类别图像分成 4 个区间，每个区间采样一张组成图像集（保证稀疏/密集都覆盖），打乱后让 MLLM 输出升序排列 "Image i < ... < Image j"
设计动机：判断"哪张图片有更多目标"比预测绝对数字更贴近视觉直觉，缓解模态鸿沟
Global-and-Local Counting Enhancement (GLCE):
做什么：推理时融合全局和局部计数预测
核心思路：先预测全局计数 \(c^g\)。若 \(c^g > c^h\)（阈值 100），则将图像切成 2×2 子图，分别计数并求和得 \(c^l\)，最终取 \((c^g + c^l) / 2\)
设计动机：全局计数在密集场景下低估，局部计数因边缘效应高估——取均值互补

损失函数 / 训练策略¶

标准语言建模 cross-entropy 损失。LLaVA-OneVision-7B + LoRA (rank=128)。在 FSC-147 上训练。

实验关键数据¶

主实验（FSC-147 Test Set MAE↓）¶

方法	监督类型	MAE↓	RMSE↓
CLIP-Count	全监督(点标注)	17.78	106.62
T2ICount	全监督	~好	~好
CountGD	全监督	~好	~好
WS-COC	弱监督(图像级)	~匹敌全监督	~匹敌
WS-COC-Base (直接微调)	弱监督	高	高
MLLM-Zero (无微调)	零样本	很高	很高

消融实验¶

配置	效果
Base only	密集场景严重低估
+ D3T	显著改善
+ D3T + CRCO	进一步改善
+ D3T + CRCO + GLCE	最佳，尤其密集场景

关键发现¶

弱监督的 WS-COC 匹敌甚至超越多个全监督方法——颠覆性的标注效率提升
D3T 的对话式二分法在密集场景上的改善最大——从直接回归到范围判断的任务重构是关键
CRCO 的相对排序学习特别有助于建立跨量级的数量感知
跨数据集泛化（FSC-147→CARPK/PUCPR+/ShanghaiTech）表现良好
在 20 个以下目标的稀疏场景中 MLLM 零样本就已相当准确

亮点与洞察¶

任务重构是核心贡献：不是设计更好的视觉特征，而是将"预测数字"重构为 MLLM 更擅长的子任务（判断/比较/分而治之），这种思路可推广到其他需要数值回归的 VLM 应用
弱监督达到全监督水平：目标计数领域的重要突破——点标注的昂贵成本可能不再必要
对话式推理的优雅应用：利用 MLLM 的多轮对话能力做"二分搜索"，是对 MLLM 交互能力的创造性利用

局限性 / 可改进方向¶

GLCE 的简单均值融合可能不是最优——可以学习自适应的融合权重
2×2 分割对极密集场景可能仍不够细——需要更多层级的分割
依赖目标类别名称作为文本 prompt，对未知类别或难以命名的目标可能受限
计数阈值 \(c^h=100\) 是手动设定的

评分¶

新颖性: ⭐⭐⭐⭐⭐ 任务重构的三个策略都很有创意
实验充分度: ⭐⭐⭐⭐ 4 个 benchmark，详细消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图示直观
价值: ⭐⭐⭐⭐⭐ 弱监督达到全监督水平，实用性极强