Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains¶

会议: CVPR 2026
arXiv: 2603.12624
代码: https://github.com/MVME-HBUT/SAM_FTI-FDet.git (有)
领域: 实例分割 / 工业检测 / 基础模型适配
关键词: SAM, 自提示生成, 轻量化, 货运列车故障检测, 基础模型迁移

一句话总结¶

提出SAM FTI-FDet，通过设计一个基于Transformer decoder的自提示生成器（Prompt Generator），让轻量化的TinyViT-SAM自动生成任务相关的query prompt，无需人工交互即可完成货运列车部件的实例级故障检测，在自建数据集上达到74.6 AP_box / 74.2 AP_mask。

背景与动机¶

货运列车的关键部件（闸瓦、轴承鞍座等）长期运行后容易磨损，传统人工巡检效率低且依赖经验。虽然基于CNN/Transformer的检测方法已被广泛部署，但面临三个核心痛点：（1）泛化差——在一个检测站训练的模型迁移到新站点时性能剧降；（2）边界不精确——传统目标检测只给bounding box，无法定量评估磨损程度（如闸瓦剩余厚度）；（3）部署受限——高精度模型计算量大，难以在铁路沿线的边缘设备上实时运行。SAM作为基础模型具有强大的分割泛化能力，但它依赖外部提示（点击、框）且对提示位置敏感，无法直接用于全自动工业场景。

核心问题¶

如何将SAM的通用分割知识迁移到货运列车故障检测这一特定领域，同时解决三个挑战：（1）消除SAM对人工提示的依赖，实现全自动化；（2）保持轻量化以满足边缘部署需求；（3）在结构复杂、遮挡频繁的工业场景中保证实例分割精度。

方法详解¶

整体框架¶

SAM FTI-FDet基于SAM的encoder-decoder架构构建。输入图像（1024×1024）→ TinyViT-SAM编码器提取特征 → Adaptive Feature Dispatcher融合多尺度特征 → Prompt Generator自动生成query prompt → Mask Decoder结合prompt和图像特征生成实例分割掩码和bounding box。推理时每张图预测最多10个实例，只取最后一层decoder的输出，通过形态学后处理得到最终mask和box。

关键设计¶

Prompt Generator（提示生成器）：核心创新。初始化一组可学习query向量 Q₀（长度 N_q），通过L层Transformer Decoder逐层精化——每层先做self-attention建模query间的语义依赖，再做cross-attention与图像特征交互，引入注意力mask抑制无关位置。最终输出的query向量同时作为sparse prompt和dense prompt注入mask decoder，引导模型聚焦于目标区域。与RSPrompter的box-based prompt不同，本方法的query prompt直接编码目标语义先验，收敛更快且精度更高。
Adaptive Feature Dispatcher（自适应特征分发器）：由Feature Aggregator和Feature Splitter两部分组成。Aggregator对TinyViT各层特征做1×1降维到32通道，然后通过递归残差聚合（m_i = m_{i-1} + Conv2D(m_{i-1}) + F̃_i）逐层融合，最后通过多层卷积恢复通道维度得到统一特征 F_agg。Splitter将F_agg分解为多分辨率分支供不同尺度任务使用。这个设计弥补了轻量化backbone特征表达力不足的问题。
TinyViT-SAM轻量化骨干：采用MobileSAM中通过知识蒸馏得到的TinyViT替代原始SAM的ViT-B/H，大幅降低参数量和计算量。关键发现是冻结decoder、只微调encoder（uf/f配置）效果最好——微调encoder学习领域特征，冻结decoder保留通用解码能力防止过拟合。
端到端集合预测机制：生成N_q=10组prompt，每组包含K_p=4个point embedding，直接从全局图像特征中提取任务相关信息。这种固定数量的query设计类似DETR的思路，避免了NMS等后处理。

损失函数 / 训练策略¶

AdamW优化器，初始lr=1e-4，cosine退火+线性warmup，训练150 epochs
Batch size=4，双卡RTX 4090
DeepSpeed ZeRO Stage 2 + FP16混合精度训练提升效率
数据增强：水平翻转 + 大尺度抖动
Prompt Generator只使用Feature Splitter输出的最后3个最小分辨率特征图

实验关键数据¶

数据集	指标	本文	之前SOTA	提升
货运列车	AP_box	74.6	74.3 (Mask2Former+Swin-T)	+0.3
货运列车	AP_mask	74.2	73.8 (Mask2Former+Swin-T)	+0.4
货运列车	模型大小(MB)	148.2	739.5 (Mask2Former+Swin-T)	-80%
货运列车	参数量(M)	36.3	49.0 (Mask2Former+Swin-T)	-26%
MS-COCO	AP_box	38.7	37.9 (FastSAM)	+0.8
MS-COCO	AP_mask	33.7	32.6 (FastSAM)	+1.1
噪声测试	AP_box	60.8	57.5 (Mask R-CNN)	+3.3
闸瓦磨损	严重磨损检测	97.5%	93.9% (Mask R-CNN)	+3.6%

消融实验要点¶

Prompt类型最关键：query prompt vs box prompt，query prompt在AP_mask上比SAM-det的bbox prompt高16.5个点（74.2 vs 57.7），说明语义级prompt远优于空间级prompt
冻结策略：encoder微调+decoder冻结（uf/f）最优，全冻结掉7.7 AP_box，全解冻掉1.4 AP_box
特征层选择：使用最后两层[2,3]效果最好（74.6 AP_box），使用全部[0,1,2,3]反而掉0.8
通道数：256 > 128 > 64，从64到256提升7.3 AP_box
Prompt形状：N_q=10, K_p=4最优；N_q对性能影响大（覆盖度），K_p影响小（模型鲁棒）
预训练数据：SA-1B预训练优于ImageNet预训练，TinyViT-5m在更小参数量下接近SAM-B性能

亮点¶

自提示思路可迁移：把SAM从"需要人工点击"变成"自动生成prompt"的思路非常实用，适用于任何不允许人工交互的工业场景（如流水线检测、无人机巡检）
冻结decoder是好的正则化：在小数据集上只微调encoder、冻结decoder的策略值得借鉴，本质是利用预训练decoder的通用解码能力防止过拟合
实例分割做定量评估：论文不仅检测故障，还通过mask面积估算闸瓦磨损程度（轻微/中度/严重），比传统目标检测的框回归更有实际工业价值
递归残差特征聚合简单有效：m_i = m_{i-1} + Conv(m_{i-1}) + F̃_i，在轻量级backbone上补偿了特征表达力

局限性 / 可改进方向¶

数据集规模小（4410张）且仅来自中国铁路系统，跨国跨类型泛化性未验证
Query prompt固定数量N_q=10，对于密集场景（如一张图中有>10个目标实例）无法处理
对极小目标、低显著性缺陷仍有漏检（作者在Discussion中承认）
仅处理静态图像，未扩展到视频流的时序故障检测
训练仍需150 epoch + 双卡4090，并非真正的"即插即用"

与相关工作的对比¶

vs RSPrompter：RSPrompter用box prompt引导SAM，本方法用query prompt。实验证明query prompt收敛更快（训练loss对比图）、精度更高（AP_mask 74.2 vs 71.9），因为query直接编码语义而非空间约束
vs Mask2Former：精度接近（74.6 vs 74.3 AP_box），但模型体积小5倍（148MB vs 740MB），更适合边缘部署
vs FastSAM：在轻量化方面FastSAM参数更少（9.1M），但AP_mask差2.2个点（72.0 vs 74.2），且FastSAM是通用模型缺乏领域适配

启发与关联¶

与 ideas/segmentation/20260316_unified_freq_prompt_sam.md 直接相关——本文的自提示策略可以作为"统一频率prompt SAM"的一个工业场景baseline
自提示生成器的思路可以推广：不仅生成点/框prompt，还可以生成频率域、文本域的prompt来适配不同困难场景
冻结decoder + 微调encoder的策略对医学SAM适配也有参考价值

评分¶

新颖性: ⭐⭐⭐ 自提示SAM的思路不算新（RSPrompter之前就有），但query-based prompt设计和工业场景适配有增量贡献
实验充分度: ⭐⭐⭐⭐⭐ 消融非常细致，覆盖了prompt类型、backbone、冻结策略、通道数、prompt形状、噪声鲁棒性、跨数据集泛化等10个方面
写作质量: ⭐⭐⭐⭐ 结构清晰，公式推导完整，但部分描述略显冗长
价值: ⭐⭐⭐ 工业场景的实际应用价值高，但学术新颖性一般