论文阅读-fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models

2025-03-30发布于论文随笔 | 最后更新于2025-03-31 17:03:00

clip multimodal llm triplet

CAMMA团队作品

arXiv原文链接 fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models

基本介绍

本文观察到CLIP缺少细粒度的语义和上下文信息,而只有图像的全局信息,这对复杂的医疗视频三元组识别任务非常不利。对此,本文做出了如下贡献:

  1. 文本侧使用双层soft prompt以捕获共享语义信息
  2. 使用LoRA进行微调(\(r=2\)
  3. 利用SGC(Semantic Graph Condensation)进行patch的聚类

模型框架图

模型详解

层次化提示词学习

使用两个soft prompt来分别表示细粒度的三元组交互信息与粗粒度的IT交互信息:\(t_0 = \{ V_{L_0}^1, \dots, V_{L_0}^n,cls_0\}\)\(t_1 = \{ V_{L_1}^1, \dots, V_{L_1}^n,cls_1\}\)。其中的\(V\)为上下文token(具体来说就是一个数);\(cls\)为类别embedding

Object-Centric特征

利用SGC对CLIP图像侧得到的图像特征进行聚类。以每个patch的特征作为图节点,特征间的余弦特征为边权重构建无向图,使用GAT进行信息聚合,最后用graph condensation中的softmax-normalized方法得到每个patch的聚类特征完成k聚类,得到object-centric特征\(f_{oc}\in\mathbb{R}^{k\times d}\)

分层特征对齐

至此,有了object-centric特征\(f_{oc}\in\mathbb{R}^{k\times d}\)、视觉embedding \(v\)与两个分层的文本embedding \(z_0,z_1\)

\(y_1=\tau(v\cdot z_1^T),y_0=\tau(v\cdot z_0^T)\)作为最终的图像logtis,再利用object-centric特征计算一个注意力权重\(\alpha = \text{softmax} \left( \frac{v \cdot f_{oc}^T}{\sqrt{d}} \right)\)。在原视觉embedding上叠加该注意力权重\(v_{oc}=\alpha f_{oc}\),并得到object-centric的图像logits \(y_1^{oc}=\tau(v_{oc}\cdot z_1^T),y_0^{oc}=\tau(v_{oc}\cdot z_0^T)\)。最终求平均值得到图像文本相似度\(\hat{y}_0=\frac{1}{2}(y_0+y_0^{oc})\)\(\hat{y}_1=\frac{1}{2}(y_1+y_1^{oc})\)

损失优化

使用下面这个二元交叉熵来计算相似度的损失

$$ L_i = \sum_{c=1}^{C_i} \frac{-1}{N} \left( y_{i,c} \log \left( \sigma(\hat{y}_{i,c}) \right) + (1 - y_{i,c}) \log \left( 1 - \sigma(\hat{y}_{i,c}) \right) \right) $$

使用下面这个最大间隔计算L1细粒度层级的损失,以求具有相同L0粗粒度类别的L1细粒度类别距离更近些。其中\(h\)为类别embedding,\(h^1=v^p\cdot z_1^p\)\(v^p=\phi_{vp}([v;v_{oc}])\)\(z_1^p=\phi_{tp}(z_1)\)\(P\)为当前batch中共享同一父类的所有类的pair;\(N_{ij}\)为当前batch中和i、j不共享同意父类的类别

$$ L_{\text{margin}} = \frac{1}{|P|} \sum_{(i,j) \in P} \sum_{k \notin N_{ij}} \max(0, m + d(h_i^1, h_j^1) - d(h_i^1, h_k^1)) $$

最终损失为

$$ L_{\text{total}} = \alpha_0 \times L_0 + \alpha_1 \times L_1 + \alpha_h \times L_{\text{margin}} $$

实验结果

将CholecT50数据集的100个三元组类分为base set(用于训练)与novel set(用于测试)。Unseen-Target设定下,base set/novel set 分别涉及36/18个target类;Unseen-Instrument-Verb设定下,base set/novel set 分别涉及28/21个IV对。

HM=harmonic mean

UT设定下的性能

UIV设定下的性能

消融实验

novel set中各三元组上的效果

SGC作用的可视化