论文阅读-LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Lecture Learning
2025-03-30发布于论文随笔 | 最后更新于2025-03-31 17:03:00
ICLR 2025 openreview链接 LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Lecture Learning
基本介绍
本文主要目标是建立一个在手术视频领域上的视频-文本对的数据集,并且设计了一种较为“资源节约”的能够在本地为此训练一个LLM的方案。
因此,本文的主要贡献有:
- 引入了SurgQA,一个从大量手术视频片段中提取了若干QA对的数据集
- 引入了LLaVASurg,一个手术视频上的QA模型
模型详解
本文将手术领域的知识自底向上分为四个层级:
Level 1(Object):对器官和器械的基本辨识,数据层面包括了bounding box、segmentation mask等
Level 2(Action):对各手术基本操作的识别,数据层面包括了action triplet、phase label等
Level 3(Reason):对手术动作目的的解析,数据层面由专家描述得到
Level 4(Plan&Deduction):对当前手术整体的推理与计划,数据层面由专家描述得到
显然底部两层可以由传统CV任务解决,但顶部两层需要专家知识才能解决
四个层级的文本描述举例:
- The surgery is operated on the gallbladder using the grasper.
- The grasper is retracting the gallbladder.
- The gallbladder is flipped over repeatedly to increase visualization during triangle of calot dissection.
- Three structures passing through the triangle of calot, so suspect there may be an accessory duct and intraoperative cholangiogram is indicated.
指令调整过程
- 原始transcript获取 将手术lecture视频的语音转文本得到原始transcript
- 结构化信息提取 让LLM从transcript中提取观察结论\(\mathbf{I}_o\)以及对应的原因\(\mathbf{I}_r\)、推理\(\mathbf{I}_d\)、计划\(\mathbf{I}_p\)
- 问题生成 首先让LLM生成一个关于视频内容的描述性问题,接着再针对上一步结构化信息组合\([\mathbf{I}_o,\mathbf{I}_r],[\mathbf{I}_o,\mathbf{I}_p],[\mathbf{I}_o,\mathbf{I}_d]\)生成相关的推理性问题
- 多轮问答 根据上一步生成的问题得到多轮的问答对话
视觉概念对齐
将视频片段连续相同标注合并(即仅保留一个),以此为视频片段生成(扩写)文本描述。整体训练采用Video-ChatGPT架构(时间轴平均池化特征+空间轴平均池化特征+线性映射视觉特征以与文本特征融合),视觉特征提取直接不训练地使用CLIP中的ViT-L/14