以DINOv3(ViT-B版本)encoder+Primus decoder为baseline,改进primus的输入,将一些encoder中间层的一些patch token进行聚合作为其输入。另外,由于primus中patch size为8,计算成本高,将其改为与DINOv3统一的16,但是在slice上更密集地取样以实现高分辨率训练。
2025-09-26发布于论文随笔