通用的3D重建大一统模型,可以进行分解式场景表示。
2025-10-08发布于论文随笔
以DINOv3(ViT-B版本)encoder+Primus decoder为baseline,改进primus的输入,将一些encoder中间层的一些patch token进行聚合作为其输入。另外,由于primus中patch size为8,计算成本高,将其改为与DINOv3统一的16,但是在slice上更密集地取样以实现高分辨率训练。
2025-09-26发布于论文随笔
本文颠覆了SfM的传统方法,不再分若干阶段完成任务,而是通过Transformer网络一次产出相机参数估计、多视角深度估计、点云重建、点追踪的结果,并且在输入视角非常多时仍然保持极高的计算效率。
2025-09-23发布于论文随笔
CoT综述
2025-09-08发布于论文随笔
本文提出的框架能够横跨2D灰度图、3D灰度图与RGB图进行统一训练,并得到一个统一的表征,而无需依赖于多种对不同模态的专门设计。另外,还将训练好的模型在以图搜图(可跨模态)的任务中进行了评测。
2025-09-05发布于论文随笔
本文提出了一到多(one-to-many)的YORO框架,一次预测文本中所有方面的情感极性,框架中用了一种改进后的图卷积网络CorrGCN来学习局部、全局等信息。
2025-05-05发布于论文随笔
关于遥感目标检测的多模态统一模型。
2025-05-02发布于论文随笔
本文从“CLIP缺少细粒度的语义和上下文信息”的观察出发,针对医疗视频三元组识别任务对CLIP进行了改进,并提供了一个经过大量训练的预训练模型。
2025-03-30发布于论文随笔
本文主要目标是建立一个在手术视频领域上的视频-文本对的数据集,并且设计了一种较为“资源节约”的能够在本地为此训练一个LLM的方案。
主要针对三元组类别间特征方差小的问题,之前方法会导致模型在不同类别间不自信。本文设计了一个解构模块以及全局记忆库来加强尾部类别识别。
2025-03-28发布于论文随笔