Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains¶

会议: CVPR2026 arXiv: 2603.12624 代码: MVME-HBUT/SAM_FTI-FDet 领域: 语义分割 关键词: SAM, 实例分割, 故障检测, 轻量化基础模型, 自动提示生成, 货运列车检测

一句话总结¶

提出 SAM FTI-FDet，通过自动提示生成模块和自适应特征调度器将 SAM 的通用分割能力迁移至货运列车故障检测领域，以 TinyViT 轻量骨干实现 74.6 AP^box / 74.2 AP^mask，在精度和效率上均超越现有方法。

研究背景与动机¶

铁路安全需求迫切：货运列车制动蹄、轴承鞍座等关键部件磨损检测直接关系运行安全，传统人工巡检效率低下且环境复杂
传统检测方法泛化不足：现有 CNN 方法（如锚框检测、轻量无锚检测）在跨站场景下性能显著退化，域迁移敏感性强
目标检测无法量化缺陷：bounding box 无法提供像素级磨损分析，需要实例分割实现部件面积、形状的定量评估
SAM 的工业应用瓶颈：SAM 依赖手动点击/框提示，无法满足全自动工业检测需求；且直接应用于结构复杂的列车图像效果受限
计算资源约束：铁路监控系统需部署在边缘设备上，原始 SAM 的计算开销过高不适合实时场景
现有迁移方案局限：RSPrompter 等方法在结构复杂、缺陷聚焦的列车场景中表现不佳，精度与效率难以兼顾

方法详解¶

整体框架¶

SAM FTI-FDet 基于 SAM 的编码器-解码器结构，包含三个核心模块：(1) TinyViT-SAM 轻量骨干提取图像特征；(2) 自适应特征调度器(Adaptive Feature Dispatcher)融合多尺度特征；(3) 提示生成器(Prompt Generator)自动产生任务相关提示，引导 Mask Decoder 生成实例分割结果。通过端到端的集合预测机制，固定和可学习的查询直接从全局图像特征中提取任务相关信息。

关键设计¶

提示生成器 (Prompt Generator)：基于多头注意力的 Transformer 解码器，初始化一组可学习查询向量 Q₀ (长度 Nq)，经 L 层堆叠的自注意力+交叉注意力逐层精炼。自注意力建模查询间语义依赖，交叉注意力融合外部图像特征（引入注意力掩码抑制无关位置）。最终输出作为 Mask Decoder 的查询输入，实现目标感知的 mask 预测。

自适应特征调度器 (Adaptive Feature Dispatcher)：包含特征聚合器和特征分割器。聚合器对骨干各层特征先用 1×1 + 3×3 卷积降维到 32 通道，再通过递归残差聚合 mᵢ = mᵢ₋₁ + Conv2D(mᵢ₋₁) + F̃ᵢ 实现跨尺度语义对齐，经融合卷积模块输出统一特征 F_agg；分割器将融合特征分解为多分辨率分支。实验发现使用骨干最后两层 [2,3] 效果最优。

Mask Decoder：结构与提示生成器类似（叠层 Transformer Block），但功能不同——将提示语义映射为像素级分割 mask。提示嵌入 E_dense 作为初始输入，经 L 层 Transformer 与多尺度图像特征做交叉注意力，逐步精炼至同时捕获语义和空间定位信息。推理时仅保留最后一层预测，通过形态学后处理获得最终 mask 和 bbox。

损失函数¶

采用端到端集合预测训练机制（类似 DETR 范式），每张图像生成 10 组提示（Nq=10），每组含 4 个 prompt 嵌入（Kp=4）。使用 AdamW 优化器（lr=1e-4），余弦退火 + 线性预热策略训练 150 epoch；采用 DeepSpeed ZeRO Stage 2 + FP16 混合精度训练。冻结解码器、微调编码器（uf/f 配置）取得最佳平衡。

实验¶

主要结果¶

在自建货运列车故障检测数据集（4,410 张图像，6 场景 15 类，700×512 分辨率）上的对比：

方法	骨干	AP^box	AP^mask	Params	GFLOPs	FPS
Mask R-CNN	ResNet50	70.1	70.7	44.0M	234	44.6
Mask2Former	ResNet50	74.2	72.6	46.3M	245	13.0
Mask2Former	Swin-T	74.3	73.8	49M	252	12.8
RSPrompter-query	SAM-B	72.7	71.9	131M	425	7.1
SAM FTI-FDet-PF	TinyViT	73.2	72.9	30.1M	196	24.4
SAM FTI-FDet	TinyViT	74.6	74.2	36.3M	244	16.0

SAM FTI-FDet 在 AP^box 和 AP^mask 上均取得最优，同时参数量仅为 SAM-B 方案的 ~1/3。

消融实验¶

提示类型对比 (Table III)：query 提示（74.6/74.2）显著优于 ground-truth bbox 提示（SAM 66.3）、anchor 提示（RSPrompter 68.4）和 bbox 生成提示（SAM-det 57.7），验证了查询式提示的语义优势。

骨干与预训练 (Table V)：SA-1B 预训练的 TinyViT-5m（5M 参数）取得 74.6/74.2，大幅超越 ImageNet 预训练的 ResNet101（45M，70.7/70.3），参数量仅为其 1/9。

特征层选择 (Table VI)：使用最后两层 [2,3] 特征（74.6/74.2）优于全部四层 [0,1,2,3]（73.8/73.2）和单层 [3]（72.6/72.6），表明浅层噪声会干扰聚合。

冻结策略 (Table VII)：微调编码器+冻结解码器（uf/f）取得最优 74.6/74.2，全部微调反而下降至 72.2/72.2，说明冻结解码器起到正则化作用。

通道数 (Table VIII)：256 通道（74.6/74.2）> 128（70.9/71.5）> 64（67.3/67.5），更宽通道提供更丰富判别特征。

关键发现¶

训练收敛速度远快于 RSPrompter，自提示机制提供了更高效的优化引导
提示组数 Nq=10 最优（接近图像中典型实例数），过少（Nq=1, AP 63.0）覆盖不足，过多（Nq=30, AP 73.2）冗余降低
轻量化 TinyViT-5m + SA-1B 预训练的组合在精度和效率上实现了最佳平衡

亮点¶

自动提示生成彻底消除 SAM 对手动交互的依赖，实现全自动工业检测流水线
参数量仅 36.3M 即超越 131M 的 RSPrompter，适合边缘设备部署
递归残差特征聚合策略简洁有效，跨尺度语义对齐效果显著
消融实验非常全面（提示类型/骨干/层选择/冻结策略/通道数/提示形状），系统性强

局限性¶

数据集仅 4,410 张图像且来自单一国家铁路系统，跨国/跨类型泛化能力未验证
仅针对货运列车 6 类场景 15 类部件，通用工业缺陷检测场景的适用性未知
FPS=16 在高速列车检测场景中可能不够实时（低于 Mask R-CNN 的 44.6 FPS）
缺少与最新 SAM 2 的对比
未讨论恶劣天气（雨雪、强光）等极端条件下的鲁棒性

评分¶

新颖性: ⭐⭐⭐ — 自提示生成 + 轻量 SAM 迁移的组合有工程新意，但各模块（Transformer 解码器查询、特征聚合）设计较为常规
实验充分度: ⭐⭐⭐⭐ — 消融实验覆盖全面（7 组消融），对比方法丰富；但数据集规模偏小且单一
写作质量: ⭐⭐⭐ — 结构清晰但数学符号较多导致阅读繁重，部分段落冗长
价值: ⭐⭐⭐ — 工业应用价值明确，但方法通用性和场景可扩展性有待进一步验证