Focus-to-Perceive Representation Learning: A Cognition-Inspired Hierarchical Framework for Endoscopic Video Analysis¶

会议: CVPR 2026
arXiv: 2603.25778
代码: 有
领域: Medical Imaging / 内窥镜视频分析
关键词: 自监督学习, 内窥镜视频, 层次化语义建模, 掩码重建, Mamba

一句话总结¶

提出 FPRL，一个受临床认知启发的层次化自监督框架，通过先"聚焦"帧内病灶关键静态语义、再"感知"帧间上下文演化来缓解运动偏差，在 11 个内窥镜数据集上取得 SOTA。

研究背景与动机¶

内窥镜视频分析对胃肠道疾病的早期筛查至关重要，但高质量标注稀缺严重限制了算法性能。自监督视频预训练是应对标注不足的有力方向，然而现有方法（如 VideoMAE、VideoMAE V2 等）主要面向自然视频设计，强调密集时空建模和运动语义——这对动作识别等任务有效，但与内窥镜视频的核心特征相矛盾。

内窥镜视频的关键语义依赖于静态、局部的视觉线索（如病灶的形态、颜色和纹理），而非显著的时间动态。当密集时空建模直接迁移到内窥镜视频时，模型倾向于过度关注相机抖动、组织位移等无关运动（作者称之为"运动偏差"），忽略了对诊断至关重要的静态语义。

作者观察到，有经验的内镜专家在阅片时遵循"先聚焦、后感知"的认知模式：先仔细检查单帧中的语义显著区域（颜色、纹理异常），再追踪这些候选区域的时间演化。这一临床认知过程启发了 FPRL 框架的设计。

方法详解¶

整体框架¶

FPRL 由两个层次化的语义建模组件组成：

静态语义聚焦（Static Semantic Focus）：捕获帧内以病灶为中心的局部语义
上下文语义感知（Contextual Semantic Perception）：建模跨视图的时间演化，保持上下文一致性

整体采用教师-学生（Teacher-Student）范式：教师编码器（预训练 VideoMamba-S，冻结权重）处理当前视图，学生编码器（EndoMamba-S，从头训练）处理过去和未来视图。

关键设计¶

1. 多视图稀疏采样¶

从视频序列的一个时间窗口中独立采样 3 个稀疏视图（过去、当前、未来），每个视图包含 2 帧。这种采样策略直觉上抑制了视频输入的动态冗余，同时保持了视图间的语义多样性。

2. 教师先验自适应掩码（TPAM）¶

TPAM 是本文的核心创新之一。其设计动机在于：传统随机掩码无法区分病灶区域与背景区域。

教师显著性先验：对教师特征进行 \(\ell_2\) 归一化，得到显著性图 \(H\)，增强病灶相关 token 的选择
轻量注意力头：对当前视图的嵌入施加多头自注意力 + 线性投影，生成逻辑值 \(R\)，捕获互补的图像特定显著性
融合采样：\(S = \alpha H + (1-\alpha)R\)，通过 Top-K 选择可见 patch，得到可学习的二值掩码 \(M\)
学生编码器仅对可见 patch 编码，使模型集中表征能力于病灶相关语义

3. 跨视图掩码特征补全（CVMFC）¶

在隐空间中建立精细的跨视图对应关系，通过从相邻视图检索语义来补全当前视图的被掩码特征：

使用 Transformer 风格的跨注意力块（cross-attention → self-attention → FFN）
当前视图特征作为 query，过去/未来视图特征分别作为 key/value
输出 \(z_c^p\) 和 \(z_c^f\) 分别与冻结的教师特征 \(z_t\) 对齐

4. 注意力引导的时间预测（AGTP）¶

在视图级别强制时间对应一致性，补充 CVMFC 的 token 级检索：

利用 CVMFC 计算的跨注意力图对相邻视图 token 进行加权池化
通过 EMA 更新的目标头提供稳定的非退化目标
与当前视图的全局平均池化特征进行对比学习

损失函数 / 训练策略¶

总损失由三部分加权组合：

\[\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{Rec} + \lambda_2 \mathcal{L}_{Align} + \lambda_3 \mathcal{L}_{CL}\]

损失项	作用	权重
像素重建损失 \(\mathcal{L}_{Rec}\)	恢复被掩码 token 的病灶纹理/边界细节	\(\lambda_1 = 1.0\)
跨视图特征对齐损失 \(\mathcal{L}_{Align}\)	建立 token 级的时间对应（余弦相似度 + \(\ell_2\) 一致性）	\(\lambda_2 = 0.8\)
时间预测对比损失 \(\mathcal{L}_{CL}\)	InfoNCE 对比学习，保持视图级时间一致性	\(\lambda_3 = 1.0\)

训练使用 AdamW 优化器，学习率 1.5e-4，余弦调度，400 个 epoch，batch size 64，前 40 个 epoch 线性 warmup。在 4 块 NVIDIA A800 上训练。

实验关键数据¶

主实验¶

方法	会议/年份	预训练时间(h)	PolypDiag F1(%)	CVC-12k Dice(%)	KUMC F1(%)
Scratch	-	N/A	83.5	53.2	73.5
VideoMAE	NeurIPS'22	25.3	91.4	80.9	82.8
Endo-FM	MICCAI'23	20.4	90.7	73.9	84.1
M2CRL	NeurIPS'24	24.3	94.2	81.4	86.3
EndoMamba	MICCAI'25	38.2	94.5	84.5	88.8
FPRL (Ours)	-	18.2	95.2	86.1	89.8

在相同模型架构下，FPRL 比 EndoMamba 分别提升了 0.7%/1.6%/1.0%，同时预训练时间减少了 52%。

消融实验¶

\(\mathcal{L}_{Rec}\)	\(\mathcal{L}_{CL}\)	\(\mathcal{L}_{pt}\)	\(\mathcal{L}_{ft}\)	\(\mathcal{L}_{pf}\)	分类	分割	检测
✓					92.3	83.8	84.0
✓	✓	✓	✓		94.2	84.0	86.1
✓	✓	✓	✓	✓	95.2	86.1	89.8

掩码策略消融：

掩码策略	分类(%)	分割(%)	检测(%)
Random	93.8	85.6	87.8
Adaptive	94.5	85.6	83.9
Teacher-Prior + Adaptive (Ours)	95.2	86.1	89.8

最优掩码比例为 90%，过高（95%）或过低（70%）都会降低性能。

关键发现¶

层次化语义建模（分离静态 + 上下文语义）是性能提升的核心
双路径掩码补全（past + future）比单路径分别提升约 1.9%/2.0%/3.6%
教师先验与自适应掩码的组合效果最佳，仅用其一不能充分捕获病灶特征
4 层 decoder + 1 个 CVMFC block 就够了，更深的设计导致特征过度平滑

亮点与洞察¶

认知启发的设计范式：将临床医生"先聚焦、后感知"的诊断流程系统地转化为技术方案，具有很强的可解释性
运动偏差的显式建模：明确提出内窥镜视频的"运动偏差"概念，并通过层次化框架系统地应对
效率优势：预训练时间仅 18.2h，比 EndoMamba（38.2h）少 52%，比 VideoMamba（55.4h）少 67%
TPAM 设计精巧：将教师网络的全局先验与轻量注意力头的局部信息融合，使掩码学习具有自适应性

局限与展望¶

单帧预训练变体因内窥镜常见伪影（运动模糊、光照闪烁、镜面反射）效果不佳
未来可探索质量感知采样策略，避免低质量帧对训练的干扰
框架目前仅在内窥镜领域验证，向其他医学影像领域的泛化尚待探索
Mamba 架构对超长序列的扩展性值得进一步研究

评分¶

新颖性: ⭐⭐⭐⭐ — "聚焦-感知"层次化范式原创性强，TPAM 融合教师先验与自适应注意力的设计有新意
实验充分度: ⭐⭐⭐⭐⭐ — 11 个数据集、4 个下游任务、丰富的消融实验覆盖了掩码策略/比例/架构/损失等多个维度
写作质量: ⭐⭐⭐⭐ — 动机清晰，方法描述系统，但数学符号较多可能增加阅读负担
价值: ⭐⭐⭐⭐ — 对内窥镜视频领域的自监督学习有实质性推进，认知启发的设计思路可推广到其他医学影像分析任务