Evaluating Few-Shot Pill Recognition Under Visual Domain Shift¶

会议: CVPR 2026
arXiv: 2603.10833
代码: 无（基于 FsDet/Detectron2 开源框架）
领域: 目标检测 / 医学图像
关键词: few-shot object detection, pill recognition, domain shift, deployment readiness, cross-dataset evaluation

一句话总结¶

本文从部署视角系统评估药丸识别在跨域few-shot条件下的泛化能力，揭示语义分类1-shot即饱和但定位/recall在重叠遮挡下急剧下降的解耦现象，并证明训练数据的视觉真实性远比数据量或shot数更关键。

研究背景与动机¶

领域现状：药品不良事件（ADE）是可预防性医疗伤害的重要来源，自动药丸识别系统被寄予厚望。现有系统多在受控条件下（单药丸、干净背景、统一光照）训练和评估，表现优异。
现有痛点：实际部署场景与受控环境差异巨大——药丸存放在dosette box中，多药丸重叠、遮挡、反光、背景杂乱。现有few-shot药丸识别研究几乎都在同分布数据上评估（训练和测试来自相似视觉条件），报告的高精度可能严重高估了真实鲁棒性。
核心矛盾：few-shot学习能否在跨域场景下保持有效？现有评估协议回避了最关键的部署挑战——训练数据（受控单药丸）和部署环境（混乱多药丸场景）之间存在系统性domain shift。标准的mAP指标在标注异构条件下也无法公平比较。
本文要解决什么？
跨数据集domain shift下few-shot适应的真实泛化能力如何？
base训练数据的视觉真实性vs数据量，哪个更影响few-shot表现？
语义分类和定位性能在few-shot+遮挡条件下是否一致？
few-shot fine-tuning能否作为部署就绪性的诊断工具？
切入角度：不追求架构创新，而是设计严格的跨域评估协议（CURE受控单药丸 vs MEDISEG真实多药丸 → 新部署环境），用classification-centric metrics替代传统mAP来公平评估。
核心idea一句话：将few-shot fine-tuning重新定位为部署就绪性诊断工具，通过跨域+重叠压力测试暴露分类-定位解耦的系统性失败模式。

方法详解¶

整体框架¶

两阶段few-shot目标检测框架，基于FsDet（Frustratingly Simple Few-Shot Object Detection）/ Faster R-CNN实现。

Pipeline：Base training（在CURE或MEDISEG上训练base classes）→ Few-shot fine-tuning（用novel deployment dataset的1/5/10-shot支持集微调）→ Query set评估（516张多药丸混乱场景图像）+ Overlap-only压力测试（133张严重重叠场景图像）。

关键设计¶

数据集设计与对比
做什么：刻意选择两个视觉复杂度差异巨大的数据集作为base training来源
核心思路：CURE（8973图/196类/单药丸受控环境/全图bbox标注）vs MEDISEG（8262图/32类/多药丸真实场景/实例级bbox标注）。两者类别不重叠，都不与novel类别混合
设计动机：通过控制base domain的视觉真实性，隔离"训练数据真实性"这一变量对few-shot泛化的影响。CURE数据量多、类别多但单一简单；MEDISEG数据量少、类别少但视觉复杂度高——这构成了一个自然的"量vs质"实验
Few-shot适应协议
做什么：在novel deployment dataset上执行5-way K-shot适应
核心思路：\(K \in \{1, 5, 10\}\)，support set从部署数据集采样，query set（516图）和overlap-only set（133图）严格分离。Fine-tuning固定2000 iterations，SGD + momentum 0.9，lr=\(1\times10^{-3}\)，backbone冻结，仅微调ROI heads和部分RPN
设计动机：固定训练预算消除训练时长混淆；冻结backbone保留base知识；严格数据分离确保观察到的差异归因于base-domain特性而非数据泄露
Classification-centric评估体系
做什么：用前景分类准确率（FG-Acc）、假阴性率（FN rate）、RPN分类loss、总loss替代传统mAP作为主要指标
核心思路：\(\text{FG-Acc} = \frac{\text{正确前景分类数}}{\text{总前景提议数}}\)，\(\text{FN} = \frac{\text{漏检GT目标数}}{\text{总GT目标数}}\)
设计动机：CURE（全图bbox）和MEDISEG（实例bbox）标注粒度不同导致IoU匹配不一致，AP在跨标注策略时不可比。分类指标和错误指标能隔离语义识别和定位失败，暴露mAP掩盖的失败模式
Overlap-only压力测试
做什么：从部署数据集中筛选133张严重重叠的药丸场景作为独立测试集
核心思路：人工验证每张图片确实存在显著遮挡/边界模糊，提供instance-level bbox + segmentation mask标注。与standard评估共享label space但改变场景结构
设计动机：标准评估可能混淆简单场景和困难场景的表现；overlap-only set隔离最具挑战的视觉条件，直接暴露模型在遮挡下的脆弱性

训练策略¶

Base training：标准Faster R-CNN训练，固定设置不随实验变化
Few-shot fine-tuning：SGD, momentum=0.9, weight decay=\(1\times10^{-4}\), lr=\(1\times10^{-3}\), 2000 iterations
Backbone（ResNet + FPN）冻结，RPN部分可训练（受限lr），ROI heads全量微调
分类层为novel classes重新初始化
无额外数据增强（仅Detectron2标准变换）

实验关键数据¶

主实验：标准评估集上的Few-shot适应¶

配置	FG分类准确率	假阴性率	分类Loss	总Loss
CURE 1-shot	0.989 ± 0.001	0.011	0.008	0.015
CURE 5-shot	0.981 ± 0.002	0.009	0.023	0.036
CURE 10-shot	0.977 ± 0.003	0.009	0.034	0.055
MEDISEG 1-shot	0.994 ± 0.005	0.006	0.011	0.021
MEDISEG 5-shot	0.990 ± 0.002	0.005	0.010	0.019
MEDISEG 10-shot	0.983 ± 0.002	0.005	0.019	0.030

关键发现：语义分类在1-shot就已饱和（CURE 0.989, MEDISEG 0.994），增加shot甚至轻微下降。MEDISEG base training的假阴性率比CURE低45%（0.006 vs 0.011）。

Overlap-only压力测试¶

配置	FG分类准确率	假阴性率	分类Loss	RPN Loss	总Loss
CURE 1-shot	0.131	0.816	0.351	0.863	1.326
CURE 5-shot	0.372	0.465	0.421	0.224	0.844
CURE 10-shot	0.558	0.342	0.320	0.133	0.674
MEDISEG 1-shot	0.406	0.513	0.383	0.312	0.963
MEDISEG 5-shot	0.625	0.246	0.279	0.182	0.680
MEDISEG 10-shot	0.740	0.210	0.191	0.059	0.445

关键发现¶

分类vs定位解耦：标准评估中FG-Acc接近1.0，但overlap场景中CURE 1-shot暴跌至0.131（-87%），MEDISEG也降至0.406——语义识别在定位成功时仍然可靠，但重叠导致定位和recall急剧下降
训练数据真实性 > 数据量：在最困难的1-shot overlap条件下，MEDISEG（类别少、数据少但真实）的FG-Acc是CURE（类别多、数据多但简单）的3.1倍（0.406 vs 0.131）。这个优势在所有shot设置中一致存在
递减回报：1→5-shot提升巨大（MEDISEG overlap FG-Acc从0.406→0.625，+54%），5→10-shot提升明显减缓（+18%），支持中等监督量即可的实用建议
标准差下降：MEDISEG 1-shot FG-Acc标准差±0.005，5-shot降至±0.002（-60%），更多supervision主要提升稳定性而非精度

亮点与洞察¶

Few-shot fine-tuning作为诊断工具：这是本文最具洞察的贡献。不把few-shot仅当数据高效适应策略，而是利用不同shot level暴露模型的稳定性-鲁棒性权衡和domain sensitivity，对部署决策有直接指导意义
分类-定位解耦的清晰揭示：通过classification-centric metrics（而非仅mAP）和overlap压力测试，定量分离了语义识别和空间定位的不同失败模式。这一发现可迁移到所有密集/遮挡场景的目标检测评估中
评估协议设计：面对标注异构的务实做法——放弃AP、聚焦分类指标——值得在跨数据集评估中推广

局限性 / 可改进方向¶

作者承认的局限：CURE全图bbox限制了定位指标的使用；非标准few-shot benchmark导致无法与其他方法直接对比；novel类别数受限于标注成本
架构层面未探索：仅用FsDet/Faster R-CNN，未尝试更强的few-shot检测器（如DeFRCN、FSCE等），也未比较不同backbone。不清楚观察到的分类-定位解耦是否与架构无关
缺乏解决方案：发现了问题但未提出改进方法。可考虑：(1) 遮挡感知的region proposal增强；(2) 在few-shot阶段引入overlap-aware数据增强；(3) base+novel混合训练策略
定位改进方向：可尝试将实例分割mask（论文中已标注）用于训练而非仅用于评估，看能否改善重叠场景的定位

评分¶

新颖性: ⭐⭐⭐ 非架构创新，但"few-shot作为诊断工具"的视角新颖，评估协议设计有创意
实验充分度: ⭐⭐⭐⭐ 两个base domain对比+标准/overlap双评估+多shot设置+定量+定性分析，实验设计严谨
写作质量: ⭐⭐⭐⭐ 论述清晰，实验动机和结论链条完整，分类-定位解耦的论证层层递进
价值: ⭐⭐⭐⭐ 对医疗AI部署有直接指导意义，揭示的"数据真实性>数据量"和"分类-定位解耦"具有普适参考价值