论文阅读-Encoding Surgical Videos as Latent Spatiotemporal Graphs for Object and Anatomy-Driven Reasoning
2025-01-19发布于论文随笔 | 最后更新于2025-01-20 16:01:00
MICCAI原文链接:Encoding Surgical Videos as Latent Spatiotemporal Graphs for Object and Anatomy-Driven Reasoning
基本介绍
希望将时空图应用于手术视频中,以建模目标组织的解剖结构以及工具随时间的变化。整体来说,本篇文章中提到的方法先用一个预训练的模型提取帧尺度的空间图,再结合空间连续性、视觉相似度以及语义相似度添加时域相关的边。
另外,还提出了一个称为“graph editing”的模块,结合先验知识与时域相关性进一步修正已生成的图,以增强在下游任务中的表现。
主要贡献:
- 提出了一种将医疗视频编码为潜在时空图的方法,并且可直接应用于下游任务
- 使用多条“水平”时域边高效建模长时间范围的关系
- 提出了一个称为“graph editing”的模块
图的构建
图的初始构建分为目标识别、时空图建立、边的水平选择三步。
目标识别
使用了已有的Latent Graph Representation预训练模型(Latent Graph Representations for Critical View of Safety Assessment)中的Latent Graph Encoder提取初步的图结构。
对每一帧 \(I_t\in V\) 都生成一个图 \(G_t\) ,该图中包含点集 \(N_t\) 与边集 \(E_t\) ,每个点或边都包含了特征 \(h\) 、bounding box \(b\) 、以及类别 \(r\) 。
时空图建立
通过上一步得到的 \(G_t\) 建立单个图 \(G_V\) 来描述整个视频。一开始会保留 \(G_t\) 中的所有空域边,同时根据节点间的空间(IoU)和视觉相似度(ROIAlign、线性层)沿时间轴添加时域边(Videos as Space-Time Region Graphs)。另外,本篇文章创造性地进行了非相邻帧的时域边添加。
例如对于两个图 \(G_t, G_{t+w}\) ,两两计算两个图中各节点的IoU与视觉特征的余弦相似度,得到相似度矩阵 \(M_B, M_F\) ,在 \(G_{t+w}\) 中为 \(G_t\) 的每个节点选择一个相似度最高的进行连接,最终共添加 \(4\times\left(\left|N_t\right|+\left|N_{t+w}\right|\right)\) 条边,边中包含的信息与前述相同。最终所有边信息集合表示为 \(C_{ST}\) 、边类别(即关系类别)的集合表示为 \(R_{ST}\) 。这一套操作称为 \(\phi_{TE}\) 。
最终按下面的规则将各帧的图合并为能代表整个视频的图 \(G_V\)
边的水平选择
在时空图建立的过程中,需要预先给定要跨的帧距离范围。过于密集的范围会在图中添加过多的冗余信息,因此采用dilation的思想,定义帧距离集合为
Graph Editing模块
显然,上述方法都非常依赖于目标识别的结果,这在医疗视频中会比较受限,因此考虑引入一些解剖学上先验的图信息进行修正:
- 每一个节点单独计算丢弃概率 \(p_{i,t}=(\text{deg}(n_{i,t}))^{-1}\)
- 基于“一帧中同样的器官组织只可能出现一个”,每一帧中对于每个目标类别只保留置信度最高的节点
- 为提升鲁棒性,此模块生效的概率为 \(p_{edit}\)
实验结果
在CVS(Critical View of Safety) 预测与手术阶段识别这两个比较依赖时序信息的下游任务上做了实验。
下表展示了本文所述方法在CVS预测任务中的表现
下表展示了本文所述方法在手术阶段识别上的表现
下表为本文提出的各模块的消融实验结果