CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools¶

会议: CVPR 2025
arXiv: 2312.07352
代码: GitHub
领域: 医学影像 / 手术器械跟踪
关键词: 手术器械跟踪, 多视角跟踪, 腹腔镜, 数据集, 多类多目标

一句话总结¶

本文提出CholecTrack20数据集，首次为腹腔镜手术器械跟踪引入三种视角的轨迹定义（术中/腹腔内/可见性），包含20个完整手术视频、35K+帧、65K+标注器械实例，基准测试表明当前SOTA方法（<45% HOTA）远不能满足临床需求。

领域现状：手术视频中的器械跟踪是计算机辅助手术的关键任务，支撑技能评估、安全区估计和人机协作。现有方法多在通用跟踪数据集上训练，在手术场景（出血、烟雾、反光、器械进出视野）下性能大幅下降。

现有痛点：现有手术跟踪数据集使用过于通用的跟踪定义——当器械离开相机视野或退出腹腔时，如何处理轨迹ID缺乏明确规范。这导致不同临床应用无法获得所需的轨迹类型，限制了AI在手术中的实际应用。

核心矛盾：手术中器械的"轨迹"在不同应用场景下含义不同——技能评估需要全手术跟踪（术中），工作流分析需要腹腔内跟踪（器械在体内的轨迹），实时反馈需要可见性跟踪（相机视野内的轨迹）。单一跟踪定义无法满足所有需求。

本文目标：定义手术器械的三种视角跟踪问题，构建高质量标注数据集，填补手术AI训练数据的空白。

切入角度：从临床应用需求出发，反向定义跟踪的形式化——不同的临床任务需要不同粒度的轨迹。

核心 idea：三视角跟踪定义（术中/腹腔内/可见性）+ 包含空间位置、器械类别、身份、操作者、手术阶段、视觉挑战等丰富标注的数据集。

基于Cholec80和CholecT50原始视频，选取20个完整手术视频，以1fps采样。四名经训练的标注员标注边界框、器械类别（7类）、操作者（4类）、手术阶段（7种）、视觉挑战（8类），以及三种视角下的轨迹ID。标注经严格质量控制。

三种视角的轨迹形式化:
- 功能：为不同临床应用提供适配的跟踪定义
- 核心思路：(a) 术中轨迹——器械在患者体内首次出现到最后出现的终生跟踪，需跨遮挡、出视野、重新插入的重识别；(b) 腹腔内轨迹——器械从进入腹腔到退出腹腔为一条轨迹，退出后再进入则新开轨迹；(c) 可见性轨迹——器械在相机视野中可见的连续片段为一条轨迹
- 设计动机：技能评估需要术中（器械全程使用分析），风险预测需要腹腔内（腹腔操作分析），实时辅助需要可见性（当前可见状态）
多维度丰富标注:
- 功能：支持多种手术AI任务的训练和评估
- 核心思路：每个器械实例标注：空间坐标（bbox）、类别（7种器械）、三种视角的轨迹ID、操作者（主刀/助手+左右手）、手术阶段、当前帧的视觉挑战类型
- 设计动机：器械的身份判断不仅依赖外观，还需结合操作者和trocar口位置等临床知识
严格的标注质量控制:
- 功能：确保标注一致性和准确性
- 核心思路：内评者一致性（Jaccard 99.4%，Cohen's Kappa 94.6%）、评者间一致性（Jaccard 91.8%，Kappa 95.2%）、外科专家仲裁歧义情况（758个不确定样本中133个需修正）
- 设计动机：手术数据标注需要专业知识，质量控制是数据集可信度的基础

数据集论文，不涉及特定模型训练。基准实验使用DeepSORT、ByteTrack等现有跟踪方法。