PicoSAM3: Real-Time In-Sensor Region-of-Interest Segmentation¶

会议: CVPR 2025
arXiv: 2603.11917
代码: GitHub
领域: 分割 / 边缘部署
关键词: 传感器内计算, SAM 蒸馏, INT8 量化, 轻量分割, Sony IMX500, ROI 提示

一句话总结¶

PicoSAM3 是一个 1.3M 参数的超轻量可提示分割模型，通过 ROI 隐式提示编码、密集 CNN 架构（无 Transformer）、SAM3 知识蒸馏和 INT8 量化，在 COCO 上达 65.45% mIoU，并实现在 Sony IMX500 视觉传感器上 11.82ms 实时推理。

研究背景与动机¶

领域现状：SAM/SAM2/SAM3 系列在可提示分割取得突破性进展，但其 Transformer 架构的计算量和内存占用使其无法部署在极端边缘设备上。
现有痛点：（1）TinySAM、EdgeSAM 等压缩方案仍保留 Transformer 结构，内存超 8MB 限制且依赖不受支持的算子（Softmax、LayerNorm）；（2）传感器内计算（In-sensor computing）要求模型完全在 CMOS 传感器内运行，对算子类型、整数精度、内存有极严格限制；（3）现有轻量 SAM 忽略 ROI 的空间灵活性。
核心矛盾：如何在 <8MB SRAM、仅支持量化友好算子的传感器芯片上，实现高质量可提示分割？
切入角度：完全放弃 Transformer，采用纯 CNN 架构 + ROI 隐式提示 + SAM3 蒸馏 + INT8 量化，专门为传感器内部署设计。

方法详解¶

整体框架¶

训练：COCO 数据 → 对每个标注实例提取 ROI 裁剪（10% padding, 正方形, 96×96）→ SAM3 teacher 对同一 bbox 生成 soft mask（离线缓存）→ PicoSAM3 student 仅看裁剪 RGB 图学习分割 → 多损失蒸馏训练。推理：用户在 IMX500 上拖选 ROI → 传感器硬件裁剪 → INT8 模型推理 → 返回分割掩码。

关键设计¶

隐式提示编码（Implicit Prompt via Centered Cropping）:
做什么：将 bbox 提示隐式地通过裁剪编码到 RGB 输入中
核心思路：训练时根据 bbox 提取带 10% padding 的正方形裁剪，resize 到 96×96。目标物体始终近似居中，网络学习分割输入中心附近的主要物体。推理时利用 IMX500 的硬件 ROI 功能实现同样的裁剪
设计动机：IMX500 仅支持 RGB 输入，无法传入额外的提示张量，因此只能通过空间裁剪隐式编码提示
模型架构（Dense CNN U-Net）:
做什么：1.37M 参数的纯 CNN 对称编解码器
核心思路：基于 PicoSAM2 的 U-Net 结构（深度可分离卷积，通道 48→96→160→256→320），新增三项改进：（1）带膨胀深度卷积的增强 bottleneck（dilation=2 扩大感受野）；（2）输出头前的 Efficient Channel Attention（ECA）块实现自适应特征重校准；（3）带深度卷积的细化头改善边界
设计动机：完全避免 Transformer 的 Self-Attention 算子，确保所有操作兼容 INT8 量化和 IMX500 的有限算子集
SAM3 知识蒸馏:
做什么：从 1.2GB 的 SAM3 teacher 蒸馏到 5.26MB 的 student
核心思路：离线缓存 teacher 对所有 COCO 标注的 soft mask → 三损失联合训练：（1）teacher 损失 \(\mathcal{L}_{teacher}\) = MSE + Dice（温度缩放 \(\tau=5\)）；（2）GT 损失 \(\mathcal{L}_{gt}\) = BCE + Dice；（3）面积保持损失 \(\mathcal{L}_{area}\)（防止预测掩码面积塌缩到 GT 的 40% 以下）
自适应权重：总损失中 teacher 和 GT 的权重由 teacher 置信度自动调节——高置信时依赖 teacher soft label，低置信时回退到 GT
INT8 后训练量化:
做什么：4× 模型压缩（5.26MB → 1.31MB），精度损失 <0.2%
核心思路：用 Sony MCT 工具链进行对称逐通道权重量化 + 逐张量激活量化，10 batch 校准
设计动机：深度可分离卷积对量化噪声天然鲁棒，无需复杂的 outlier 抑制算法

实验关键数据¶

主实验（COCO / LVIS）¶

模型	参数量	大小	COCO mIoU	LVIS mIoU	IMX500 延迟
SAM-H	635M	2420MB	53.6%	60.5%	—
TinySAM	9.7M	37MB	50.9%	52.1%	—
EdgeSAM	9.7M	37MB	48.0%	53.7%	—
PicoSAM2	1.3M	4.87MB	51.9%	44.9%	—
Q-PicoSAM2	1.3M	1.22MB	50.5%	45.1%	14.3ms
PicoSAM3	1.37M	5.26MB	65.45%	64.01%	—
Q-PicoSAM3	1.37M	1.31MB	65.34%	63.98%	11.82ms

PicoSAM3 参数量仅为 SAM-H 的 1/460，COCO mIoU 反超 +11.85%
相比 PicoSAM2，COCO 提升 +13.55%，LVIS 提升 +19.11%
INT8 量化几乎无损（-0.11% mIoU），IMX500 上约 84 FPS

消融实验¶

模型	Distillation	ROI	COCO mIoU	LVIS mIoU
PicoSAM2	✗	✗	53.00%	41.40%
PicoSAM2	SAM2	✗	51.93%	44.88%
PicoSAM2	SAM2	✓	63.11%	61.80%
PicoSAM2	SAM3	✓	63.51%	62.31%
PicoSAM3	SAM3	✓	65.45%	64.01%

ROI 裁剪是最关键的提升因素（mAP +10.56%），证实空间聚焦对低分辨率模型至关重要
SAM3 蒸馏优于 SAM2（+0.4% mIoU），PicoSAM3 架构改进再获 +1.9%

关键发现¶

大模型（SAM2.1 Large）在 96×96 输入上反而性能崩溃（~25% mAP），因为分辨率不匹配
纯 CNN 架构的激活分布紧凑近高斯，对 INT8 量化天然友好
ROI 裁剪 + 居中隐式提示可完美对接 IMX500 的硬件 ROI 功能

亮点与洞察¶

传感器级 SAM：首次在 CMOS 传感器内实现可提示分割，终端延迟 11.82ms（~84FPS），具有极高的实用价值
逆直觉发现：1.3M 参数模型在 96×96 输入上超越 635M 的 SAM-H，说明模型-分辨率匹配比绝对模型大小更重要
隐式提示设计：通过裁剪实现提示功能，无需额外网络或输入通道，优雅地绕过了硬件限制

局限性 / 可改进方向¶

96×96 输入分辨率限制了精细边界质量，对大物体或复杂形状可能不够
隐式 ROI 提示仅支持矩形框区域，不支持点/文本等提示类型
仅在 COCO/LVIS 验证，缺少医疗/遥感等领域迁移实验
训练仅 1 epoch on COCO，更长训练可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ 传感器内分割是新颖且有实际意义的方向，ROI 隐式提示设计巧妙
实验充分度: ⭐⭐⭐⭐ 消融全面（蒸馏/ROI/架构/量化），有真实硬件部署验证
写作质量: ⭐⭐⭐⭐ 结构清晰，硬件背景介绍充分
价值: ⭐⭐⭐⭐⭐ 极端边缘部署方向有高实用价值，方法完整可复现