论文阅读-Pixel-Wise Recognition for Holistic Surgical Scene Understanding

2025-01-20发布于论文随笔 | 最后更新于2025-01-20 21:01:00

surgical video dataset

Arxiv原文链接:Pixel-Wise Recognition for Holistic Surgical Scene Understanding

投稿于MEDIA(Medical Image Analysis)

基本介绍

本篇文章的工作较为庞大,收集了超过32小时的前列腺手术视频构成了一个新的数据集GraSP(Holistic and Multi-Granular Surgical Scene Understanding of Prostatectomies),并且提出了一个通用于所有相关识别任务的模型架构TAPIS(Transformers for Actions, Phases, Steps and Instrument Segmentation)。

GraSP

常用内窥镜手术视频数据集对比如下表,其中LS表示传统腹腔镜手术(Laparoscopic Surgery)、ST表示离体手术训练(ex vivo Surgical Training Procedures)、RASA表示动物机器人辅助手术(Robot-Asissted Surgery on Animal object)、RASH表示人类机器人辅助手术(Robot-Asissted Surgery on Human object)

内窥镜数据集对比表

由于该数据集标注丰富,所有相关的识别任务都可以在上面做,包括手术工作流分析、手术器械分割、手术动作识别、手术场景理解等。因此,本文也对识别的类型做了一定的分层,下面的分层图中过弱的连接关系已被移除。

GraSP的分层任务结构

GraSP中的详细分类类别

由多位专业医生完成标注工作,对于有冲突的标注,会进一步讨论确认。

TAPIS

模型整体结构如下图所示,可以看到将任务分为了长期和短期两种类别。有如下几个关键点

  1. 在关键帧上使用独立的器械分割baseline,以此为RPN(Region Proposal Network),提供了本地像素级的器械掩码以及分割区域的对应embedding
  2. 在以关键帧为中心的视频片段上使用了一个全局的视频特征提取器,以提供类别embedding与时空embedding序列
  3. 帧分类头使用类别embedding对关键帧进行分类,完成手术阶段和手术步的分类
  4. 区域分类头结合了本地区域embedding与全局时空特征完成原子动作预测与器械区域分类

TAPIS模型结构图

器械分割

instrument segment部分使用MATIS与Mask2Former作为主要分割baseline和region proposal方法。简单来说,使用一个transformer decoder,将一组可学习的目标query应用于backbone提取的特征,以此获得各分割部分的embedding。

视频特征提取

使用MViT(Multiscale Vision Transformers)作为视频特征提取器。简单来说,MViT会将图片分为相互重叠的patch,再不断将时空维度换入通道维度。本文将以关键帧为中心帧的整个窗口放入MViT,利用MViT自行计算的class token对帧进行分类,实现手术阶段和手术步这两个长期识别任务。

区域分类

本文使用交叉注意力将区域信息和时空特征结合,会将各分割区域的embedding作为query,时空特征作为key和value,最后使用线性层将区域特征投影到器械和原子动作类别

实验结果

下表展示了TAPIS在GraSP上的表现,其中的参数量和FLOPS都不算RPN的,TAPIR是本篇文章区域分类使用的基础网络,VST指的是Video Swin Transformer:

TAPIS在GraSP上的性能

下表展示了RDV于RiT这两个常用模型在GraSP上与TAPIS的性能对比:

GraSP上的性能对比

下面的几张表则对比了TAPIS在其他常用数据集上与其他模型的性能对比:

EndoVis2018上的性能对比

RARP-45上的性能对比

MISAW上的性能对比

另外,GraSP数据集也设计了两个Fold用以交叉验证,下表展示了交叉验证时在手术阶段与手术步骤上的性能对比:

Fold划分情况

交叉验证性能对比