以DINOv3(ViT-B版本)encoder+Primus decoder为baseline,改进primus的输入,将一些encoder中间层的一些patch token进行聚合作为其输入。另外,由于primus中patch size为8,计算成本高,将其改为与DINOv3统一的16,但是在slice上更密集地取样以实现高分辨率训练。
2025-09-26发布于论文随笔
提出了一个总时长32余小时的前列腺手术视频数据集GraSP,同时提出了一个通用于所有相关识别任务的模型架构TAPIS
2025-01-20发布于论文随笔