论文阅读-LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Lecture Learning

2025-03-30发布于论文随笔 | 最后更新于2025-03-31 17:03:00

llava multimodal llm

ICLR 2025 openreview链接 LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Lecture Learning

基本介绍

本文主要目标是建立一个在手术视频领域上的视频-文本对的数据集,并且设计了一种较为“资源节约”的能够在本地为此训练一个LLM的方案。

因此,本文的主要贡献有:

  1. 引入了SurgQA,一个从大量手术视频片段中提取了若干QA对的数据集
  2. 引入了LLaVASurg,一个手术视频上的QA模型

模型详解

模型结构图

本文将手术领域的知识自底向上分为四个层级:

Level 1(Object):对器官和器械的基本辨识,数据层面包括了bounding box、segmentation mask等

Level 2(Action):对各手术基本操作的识别,数据层面包括了action triplet、phase label等

Level 3(Reason):对手术动作目的的解析,数据层面由专家描述得到

Level 4(Plan&Deduction):对当前手术整体的推理与计划,数据层面由专家描述得到

显然底部两层可以由传统CV任务解决,但顶部两层需要专家知识才能解决

四个层级的文本描述举例:

  1. The surgery is operated on the gallbladder using the grasper.
  2. The grasper is retracting the gallbladder.
  3. The gallbladder is flipped over repeatedly to increase visualization during triangle of calot dissection.
  4. Three structures passing through the triangle of calot, so suspect there may be an accessory duct and intraoperative cholangiogram is indicated.

指令调整过程

  1. 原始transcript获取 将手术lecture视频的语音转文本得到原始transcript
  2. 结构化信息提取 让LLM从transcript中提取观察结论\(\mathbf{I}_o\)以及对应的原因\(\mathbf{I}_r\)、推理\(\mathbf{I}_d\)、计划\(\mathbf{I}_p\)
  3. 问题生成 首先让LLM生成一个关于视频内容的描述性问题,接着再针对上一步结构化信息组合\([\mathbf{I}_o,\mathbf{I}_r],[\mathbf{I}_o,\mathbf{I}_p],[\mathbf{I}_o,\mathbf{I}_d]\)生成相关的推理性问题
  4. 多轮问答 根据上一步生成的问题得到多轮的问答对话

视觉概念对齐

将视频片段连续相同标注合并(即仅保留一个),以此为视频片段生成(扩写)文本描述。整体训练采用Video-ChatGPT架构(时间轴平均池化特征+空间轴平均池化特征+线性映射视觉特征以与文本特征融合),视觉特征提取直接不训练地使用CLIP中的ViT-L/14

用到的一些Prompt

生成observation的prompt

生成结构化信息的prompt

生成推理信息的prompt