georgehu学习生活 - multimodal tag

本文提出的框架能够横跨2D灰度图、3D灰度图与RGB图进行统一训练，并得到一个统一的表征，而无需依赖于多种对不同模态的专门设计。另外，还将训练好的模型在以图搜图（可跨模态）的任务中进行了评测。

2025-09-05发布于论文随笔

本文从“CLIP缺少细粒度的语义和上下文信息”的观察出发，针对医疗视频三元组识别任务对CLIP进行了改进，并提供了一个经过大量训练的预训练模型。

2025-03-30发布于论文随笔

本文主要目标是建立一个在手术视频领域上的视频-文本对的数据集，并且设计了一种较为“资源节约”的能够在本地为此训练一个LLM的方案。

2025-03-30发布于论文随笔

Articles tagged with multimodal