本文提出的框架能够横跨2D灰度图、3D灰度图与RGB图进行统一训练,并得到一个统一的表征,而无需依赖于多种对不同模态的专门设计。另外,还将训练好的模型在以图搜图(可跨模态)的任务中进行了评测。
2025-09-05发布于论文随笔
本文从“CLIP缺少细粒度的语义和上下文信息”的观察出发,针对医疗视频三元组识别任务对CLIP进行了改进,并提供了一个经过大量训练的预训练模型。
2025-03-30发布于论文随笔
本文主要目标是建立一个在手术视频领域上的视频-文本对的数据集,并且设计了一种较为“资源节约”的能够在本地为此训练一个LLM的方案。