FSMC-Pose: Frequency and Spatial Fusion with Multiscale Self-calibration for Cattle Mounting Pose Estimation¶

会议: CVPR 2026
arXiv: 2603.16596
代码: https://github.com/FSMC-Pose
领域: 人体/动物姿态估计
关键词: 牛群姿态估计, 频率空间融合, 多尺度自校准, 爬跨检测, 轻量级

一句话总结¶

FSMC-Pose 提出了一种面向牧场密集场景的轻量级牛群爬跨姿态估计框架，通过频率-空间融合骨干网络 CattleMountNet 和多尺度自校准预测头 SC2Head，在参数仅 2.698M、4.4G FLOPs 下实现了89% AP的高精度。

研究背景与动机¶

领域现状：动物姿态估计主要沿用人体姿态方法（自底向上/自顶向下），但农业生产场景的复杂性使这些方法难以直接部署。
现有痛点：爬跨是母牛发情的关键视觉指标，但牧场场景存在杂乱背景干扰、牛群间严重遮挡、相似毛色混淆等挑战；缺乏公开的牛群爬跨数据集。
核心矛盾：发情期牛群会聚集，爬跨场景比一般牧场更密集，四肢交织导致身份混淆，而实时监控要求低计算量。
本文目标：在密集、杂乱的真实牧场环境中实现准确的爬跨姿态估计，同时保持轻量计算。
切入角度：从频域增强前景-背景分离、多尺度感受野聚合、空间-通道自校准三个角度分别解决背景干扰、尺度变化和遮挡问题。
核心 idea：频率域小波变换增强牛体与背景的可分性 + 多感受野聚合处理关键点尺度差异 + 自校准分支纠正遮挡导致的结构错位。

方法详解¶

整体框架¶

自顶向下框架：先检测单头牛的边界框，再对每头牛进行关键点定位。骨干网络 CattleMountNet 基于倒置残差结构（depthwise separable convolution），嵌入 SFEBlock 和 RABlock 两个模块。预测头 SC2Head 基于 RTMPose，增加空间-通道注意力和自校准分支。

关键设计¶

空间频率增强块 (SFEBlock):
- 功能：增强牛体与杂乱背景的分离度
- 核心思路：先用小波变换卷积(WTConv)将特征分解为低频/高频子带并分别卷积，提供多尺度频域建模和扩大感受野；再用固定的 \(5 \times 5\) 高斯核平滑响应、抑制背景噪声。融合后通过 \(1 \times 1\) 卷积压缩，元素乘法精化空间响应，残差连接保留原始信息。
- 设计动机：牧场中泥土、阴影使牛体纹理与背景相似，需要在频域层面增强区分度
感受野聚合块 (RABlock):
- 功能：捕获多尺度上下文信息，处理从小蹄到大躯干的关键点尺度差异
- 核心思路：在倒置残差单元上增加三个并行的 \(3 \times 3\) 深度可分离卷积，膨胀率分别为 1/3/5，捕获局部/中距离/远距离上下文。三路特征相加后 LayerNorm 归一化，残差连接稳定训练。
- 设计动机：单一尺度特征无法同时精确定位小关节和大躯干区域
空间-通道自校准头 (SC2Head):
- 功能：在遮挡和身份混淆下保持结构一致性
- 核心思路：包含三个分支——空间注意力(SAB)通过平均/最大池化+卷积生成空间权重、通道注意力(CAB)通过全局池化+双分支交互生成通道权重、自校准分支(SCB)通过上下采样+卷积建立长程依赖。三分支输出融合：\(C_o = f_{1\times1}([SA, CA]) \odot SC + X\)
- 设计动机：骨干网络的改进主要在早期特征提取层，预测头仍需处理交叠牛体间的结构混淆

损失函数 / 训练策略¶

基于 RTMPose 的坐标回归策略进行关键点预测
构建了 MOUNT-Cattle 数据集（1176个爬跨实例）并与公开 NWAFU-Cattle 合并
16个关键点标注，遵循 COCO 格式，支持即插即用训练

实验关键数据¶

主实验¶

方法	骨干	AP/%	AP75/%	AR/%	FLOPs/G	Params/M
RTMPose	CSPNext	88.6	90.6	89.0	1.926	13.550
FSMC-Pose	CattleMountNet	89.0	92.5	89.9	4.411	2.698
SimCC	ResNet50	87.4	91.0	89.9	5.493	36.753
DEKR	HRNet	87.2	90.3	89.0	44.416	29.548

消融实验¶

配置	AP/%	说明
Baseline (RTMPose)	88.6	基线
+ SFEBlock	提升	频率增强改善前景-背景分离
+ RABlock	提升	多尺度感受野改善尺度变化
+ SC2Head	进一步提升	自校准改善遮挡下结构一致性
Full FSMC-Pose	89.0	AP提升1.4%，参数减少80%

关键发现¶

FSMC-Pose 在 AP 上比 RTMPose 提升 1.4%，但参数量减少 80%（2.698M vs 13.550M）
SC2Head 的自校准分支对遮挡场景改善最大
频域增强(SFEBlock)对杂乱背景场景特别有效

亮点与洞察¶

将频域处理（小波变换+高斯平滑）引入动物姿态估计，巧妙解决了低对比度下的前景-背景分离问题
MOUNT-Cattle 数据集填补了牛群爬跨姿态的数据空白，遵循 COCO 格式可直接复用现有方法
参数减少80%但精度更高，适合边缘部署的实际需求

局限与展望¶

数据集规模较小（仅1176个爬跨实例），可能限制泛化能力
仅在牛群场景验证，未测试对其他大型动物的泛化性
未结合时序信息，爬跨行为本身是动态过程

评分¶

新颖性: ⭐⭐⭐ 模块设计合理但缺乏突破性创新
实验充分度: ⭐⭐⭐⭐ 多基线对比和消融完整
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法描述详细
价值: ⭐⭐⭐⭐ 填补了牛群爬跨姿态估计的研究空白，有实际应用价值