论文阅读-fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models
2025-03-30发布于论文随笔 | 最后更新于2025-03-31 17:03:00
CAMMA团队作品
arXiv原文链接 fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models
基本介绍
本文观察到CLIP缺少细粒度的语义和上下文信息,而只有图像的全局信息,这对复杂的医疗视频三元组识别任务非常不利。对此,本文做出了如下贡献:
- 文本侧使用双层soft prompt以捕获共享语义信息
- 使用LoRA进行微调(\(r=2\))
- 利用SGC(Semantic Graph Condensation)进行patch的聚类
模型详解
层次化提示词学习
使用两个soft prompt来分别表示细粒度的三元组交互信息与粗粒度的IT交互信息:\(t_0 = \{ V_{L_0}^1, \dots, V_{L_0}^n,cls_0\}\)、\(t_1 = \{ V_{L_1}^1, \dots, V_{L_1}^n,cls_1\}\)。其中的\(V\)为上下文token(具体来说就是一个数);\(cls\)为类别embedding
Object-Centric特征
利用SGC对CLIP图像侧得到的图像特征进行聚类。以每个patch的特征作为图节点,特征间的余弦特征为边权重构建无向图,使用GAT进行信息聚合,最后用graph condensation中的softmax-normalized方法得到每个patch的聚类特征完成k聚类,得到object-centric特征\(f_{oc}\in\mathbb{R}^{k\times d}\)
分层特征对齐
至此,有了object-centric特征\(f_{oc}\in\mathbb{R}^{k\times d}\)、视觉embedding \(v\)与两个分层的文本embedding \(z_0,z_1\)。
\(y_1=\tau(v\cdot z_1^T),y_0=\tau(v\cdot z_0^T)\)作为最终的图像logtis,再利用object-centric特征计算一个注意力权重\(\alpha = \text{softmax} \left( \frac{v \cdot f_{oc}^T}{\sqrt{d}} \right)\)。在原视觉embedding上叠加该注意力权重\(v_{oc}=\alpha f_{oc}\),并得到object-centric的图像logits \(y_1^{oc}=\tau(v_{oc}\cdot z_1^T),y_0^{oc}=\tau(v_{oc}\cdot z_0^T)\)。最终求平均值得到图像文本相似度\(\hat{y}_0=\frac{1}{2}(y_0+y_0^{oc})\)、\(\hat{y}_1=\frac{1}{2}(y_1+y_1^{oc})\)
损失优化
使用下面这个二元交叉熵来计算相似度的损失
使用下面这个最大间隔计算L1细粒度层级的损失,以求具有相同L0粗粒度类别的L1细粒度类别距离更近些。其中\(h\)为类别embedding,\(h^1=v^p\cdot z_1^p\)、\(v^p=\phi_{vp}([v;v_{oc}])\)、\(z_1^p=\phi_{tp}(z_1)\);\(P\)为当前batch中共享同一父类的所有类的pair;\(N_{ij}\)为当前batch中和i、j不共享同意父类的类别
最终损失为
实验结果
将CholecT50数据集的100个三元组类分为base set(用于训练)与novel set(用于测试)。Unseen-Target设定下,base set/novel set 分别涉及36/18个target类;Unseen-Instrument-Verb设定下,base set/novel set 分别涉及28/21个IV对。
HM=harmonic mean